Documente Academic
Documente Profesional
Documente Cultură
Referat
CONDUCTOR TIINIFIC:
Acad. Prof. Dr. Ing. IOAN DAN TUFI
DOCTORAND:
Iuliana Dobre
Bucureti
2011
CUPRINS
INTRODUCERE.........................................................................................................
1.1.
1.2.
1.3.
1.4.
Dicionare..............................................................
Tezaure .................................................................
Atlase lingvistice electronice .............................................................
Ontologii lexicale..............................................................................
1.4.1. Wordnet..............................................................................
1.4.2. EuroWordNet.....................................................................
1.4.3. BalkaNet.............................................................................
1.4.4. Wordnet-ul romnesc..........................................................
1.5. Corpusuri..........................................................................................
6
10
10
14
15
17
18
19
21
23
23
23
29
29
30
31
32
34
40
42
44
45
46
47
48
48
49
53
53
61
62
63
66
CONCLUZII.................................................................................................................
67
BIBLIOGRAFIE..........................................................................................................
69
GLOSAR DE ABREVIERI.........................................................................................
81
Introducere
INTRODUCERE
Informatizarea continu a societii se manifest prin aplicarea activ a tehnologiilor
informaionale. n acest context procesarea limbajului natural (eng. Natural Processing Language
NLP) devine o problem actual. Putem meniona trei direcii importante n NLP:
elaborarea instrumentarului pentru NLP;
crearea resurselor lingvistice reutilizabile;
elaborarea aplicaiilor n baza acestor resurse.
Aplicaiile NLP n aria e-Learning-ului pot fi clasificate n funcie de mai multe criterii. Unul
dintre ele se refer la modul de instruire, sincron sau asincron. Printre principalele obiective ale
aplicaiilor i metodelor de instruire din domeniul e-Learning se numr adresabilitatea acestora,
respectiv accesibilitatea i adaptabilitatea n cadrul Sistemului pentru managementul nvrii
(Learning Management System LMS). Disponibilitatea unor resurse sau tehnologii lingvistice
pentru o anumit limb particular poate face diferena, de asemenea. O alt problem conex poate
fi portabilitatea unei soluii pentru alte limbi sau pentru alte arii tematice, unde informaia specific
subiectului nu poate fi obinut n totalitate automat. Un alt criteriu de clasificare al aplicaiilor NLP
n e-Learning se refer la integrarea modulelor n cadrul aplicaiilor.
n lucrarea de fa sunt prezentate aspecte referitoare la integrarea resurselor lingvistice cu
scopul de a sprijini instructorul n timpul interaciunii sale cu sistemul educaional i de a permite
personalizarea procesului de instruire, managementul, distribuia i regsirea materialelor de
nvare.
Comunicarea reprezint un punct cheie n cadrul mediilor colaborative, cum ar fi
conferinele chat. De aceea, este un atu esenial faptul de a dispune de instrumente de comunicare
adecvate, care s permit realizarea de conferine organizate i clare. n multe scenarii de lucru
colaborativ, comunicarea, n special cea facilitat de calculator, reprezint o gtuire semnificativ i,
de aceea, punerea la dispoziia membrilor unei echipe a unor unelte special concepute n acest scop
se poate dovedi a fi un avantaj crucial n dezvoltarea proiectelor ([58]). Conferinele computerizate
au devenit tot mai utilizate datorit beneficiilor pe care le aduc: confort, independen spaial i
temporal, posibilitatea utilizatorilor de a face parte dintr-o comunitate virtual ([17]). Utilizarea
tehnologiilor i resurselor NLP n nelegerea i analizarea datelor furnizate de studeni, i anume
eseurile, blog-urile, conversaiile acestora pe platforme chat i forumuri va fi, de asemenea, un alt
subiect abordat n cadrul lucrrii.
Dac n nvarea colaborativ, n mediul virtual ca i n sala de clas, profesorul depune
acelai efort, pentru evaluarea studenilor situaia se schimb: profesorul trebuie s evalueze
participarea fiecrui student din comuniunea online, ce poate ajunge la dimensiuni considerabile.
Simpla parcurgere a contribuiei fiecrui participant necesit foarte mult timp i concentrare din
partea profesorului.
Evaluarea cunotinelor instruiilor joac un rol esenial n procesul educaional, fiind
absolut necesar:
pentru profesori:
4
Introducere
pentru studeni:
-
CAPITOLUL 1
RESURSE LINGVISTICE UTILIZABILE N E-LEARNING
Aplicaiile lingvisticii computaionale, inclusiv n e-Learning, nu pot avea performane
competitive n absena unor resurse lingvistice de foarte bun calitate. Aceste aplicaii reprezint, de
cele mai multe ori, o combinare de module separate, fiecare cu propriile necesiti informaionale.
De exemplu, un sistem de ntrebare-rspuns necesit o prelucrare primar a ntrebrii utilizatorului
pentru a putea extrage automat din aceasta o fraz de interogare pentru motorul de cutare. La
rndul ei, prelucrarea primar const n adnotare morfolexical i lematizare, procese care nu pot
funciona fr existena unor lexicoane sau modele de limb, acestea din urm fiind extrase din
corpusuri adnotate morfolexical. n consecin, resursele lingvistice computaionale reprezint o
aproximare (materializat prin elaborarea de modele de limb, lexicoane, ontologii lexicale etc.) a
competenelor lingvistice ale vorbitorilor ([13]).
Datorit utilitii acestora, inclusiv n e-Learning, n cele ce urmeaz, vor fi prezentate
cteva dintre cele mai reprezentative resurse ale lingvisticii computaionale, i anume: dicionarele,
tezaurele, ontologiile lexicale, corpusurile, precum i aspecte generale ale lor.
1.1. Dicionare
Dicionare se realizeaz de foarte mult vreme. Cele mai mari dicionare, cele lingvistice n
special, au necesitat ani i chiar zeci de ani de munc, unele dintre ele nefiind nici acum terminate.
Alta ar fi fost situaia poate dac atunci ar fi existat calculatoarele i programele de azi. n ultimele
decenii s-au fcut progrese enorme n domeniul procesrii limbajului natural, lingvisticii
computaionale i astfel s-au reluat i finalizat multe astfel de proiecte.
Crearea de baze de date lexicale (LDB) este o preocupare a mai multor ri balcanice. Astfel,
n perioada 1997-1999, n cadrul proiectului european CONCEDE (CONsortium for Central and
Eastern Dictionaries Encoding), colectivul condus de Acad. Dan Tufi este unul din realizatorii
schemei XML generice de codificare standardizat a dicionarelor explicative. Schema de
codificare, cunoscut sub numele CONCEDE, a fost folosit pentru implementarea unor dicionare
explicative pentru mai multe limbi (bulgar, ceh, englez, estonian, maghiar, sloven i desigur
romn). Un rezultat foarte semnificativ al activitii specialitilor din cadrul colectivului condus de
Acad. Dan Tufi i a dumnealui personal, n domeniul lexicografiei computaionale, a fost realizarea
unui compilator pentru dicionare n format tipografic care analizeaz textul respectiv i genereaz
codul XML conform cu descrierea CONCEDE. Compilatorul, numit DIC, se bazeaz pe gramatica
conveniilor tipografice specifice colii romneti de lexicografie, fiind parametrizabil att n raport
cu conveniile tipografice, ct i cu schema XML a codificrii int. Cu ajutorul acestui compilator,
n anul 2000 a fost finalizat implementarea conform cu schema CONCEDE a ntregului dicionar
explicativ al limbii romne (DEX, ediia 1996). Aceast implementare profesional a DEX-ului
([210]) permite regsirea de informaii lexicografice dup o mulime de criterii (categorie
gramatical, sufixe gramaticale sau lexicale, etimologie, variante, grupuri de litere coninute n
cuvntul tem, definiii etc.). Aceste cercetri i rezultatele obinute au facilitat lansarea n anul
2001 a proiectului de ontologie lexical pentru limba romn, proiect de un deosebit impact pentru
comunitatea tiinific interesat de prelucrarea automat a limbii romne ([209]).
Romne
mai multe litere, poate fi coincident sau nu cu unul sau cu mai multe sufixe lexicale, de exemplu
tor este sufix n silitor, muncitor, nu i n abator, unde este doar terminaie, reas reprezint
ntotdeauna dou sufixe, ca n: buctreas, cenureas, portreas .a. Toate cuvintele care au
aceeai terminaie sunt niruite prin ordonarea lor alfabetic invers n raport cu uzana
lexicografic, adic de la dreapta la stnga. Aceast ordonare, spre deosebire de cea normal,
permite specialitilor observarea, compararea i studierea cuvintelor dup modul comun de
formare, de exemplu, care este semnificaia specific secvenei derivative adugat semnificaiei
bazei, ce reguli combinative pot fi deduse ([27]).
Una dintre noutile aduse de DILR a fost abandonarea unui principiu lexicografic
tradiional, acela al meninerii intacte a inventarului lexical al dicionarului sau al dicionarelorsurs, prin eliminarea cuvintelor ieite din circulaie. DILR cuprinde toate cuvintele din DEX2,
DOOM2, NDN, cu excepia celor ieite din uz, a expresiilor i a locuiunilor, neinteresante pentru
un astfel de dicionar. Meninerea fondului lexical vechi, de multe ori n detrimentul
includerii cuvintelor noi n dicionarele romnei actuale prezint suficiente dezavantaje ([27]).
O noutate absolut o constituie formatul electronic al dicionarului, deoarece niciunul
dintre formatele electronice ale dicionarelor romneti nu reprezint altceva dect varianta
electronic a inventarului respectiv. De fapt, e-DILR este chiar un motor electronic de
cutare i gsire, care dispune de un program capabil s afieze, pe baza unor comenzi, liste
complete de cuvinte sau de pri de vorbire indicate care conin o anumit secven de litere n
poziiile: iniial, interioar i/sau final. Aceast secven indicat coincide sau nu cu unul sau
cu mai multe prefixe/sufixe, chiar cu o tem lexical, de aceea, n lista afiat pe baza
comenzii apar, alturi de cuvintele derivate, i cuvinte nederivate care conin secvena respectiv.
De asemenea, DILR ofer imaginea sistemului morfolexical al romnei actuale, deoarece pe
baza lui se pot identifica microsistemele lexico-gramaticale. Se poate considera c gruparea
cuvintelor n microsisteme este realizabil cu ajutorul e-DILR i conduce la stabilizarea
normativ att de necesar. DILR este, prin urmare, o lucrare nou prin concepie i prin
inventarul de cuvinte. Dac ideea ordonrii cuvintelor limbii romne dup terminaie nu e
nou, formatul electronic al DILR nu e unul obinuit, ci este conceput s faciliteze orice fel de
cercetare asupra dinamicii lexicului romnesc actual. n plus, DILR este al doilea dicionar bazat
pe o asemenea ordonare a cuvintelor care poate fi util cercetrii i astfel, poate consolida un
model lexicografic. n comparaie cu alte dicionare romneti pe suport electronic, e-DILR nu e
doar versiunea electronic a inventarului lexical, ci e un adevrat program, menit studierii
limbii romne din perspectiva dinamicii sale derivative, n special ([27]).
n ultimii ani numeroase proiecte de informatizare a limbii romne s-au desfurat i n
Republica Moldova, printre cele mai importante fiind cel de informatizare a Marelui Dicionar al
Limbii Romne (MDLR). Unul dintre ele este cel al Academiei de Studii Economice din Moldova
i anume realizarea unei baze de date multimedia pornind de la Dicionarul Explicativ Ilustrat.
Astfel rezultatul a fost baza de date realizat n MS Access 2000 i intitulat DEI Multimedia,
avnd 5 grupuri int care s acopere ct mai mult din publicul larg vorbitor de limb romn i nu
numai ([163]):
1. Publicul precolar i colar de clase mici (I, II). n acest caz, n care modul de prezentare
conteaz cel mai mult, DEI Multimedia ar trebui s aib o interfa ct mai atrgtoare
pentru copii, ct mai vesel, viu colorat, animat, organizat astfel nct s acorde un
spaiu mai larg afirii imaginilor i a clipurilor video.
2. Elevi de ciclu primar (III, IV) i ciclu gimnazial. O interfa pentru acest grup de
utilizatori ar trebui s fie, la fel ca i n cazul anterior, vesel, viu colorat, atrgtoare i
sugestiv, uor de folosit, pentru ca elevii s nu aib nevoie de ajutorul profesorului i s
8
constituie din 3 pri: interfaa cu utilizatorul, funcionalitatea i baza de date, fiecare dintre pri
putnd fi stocat pe calculatoare diferite. Astfel, utilizatorul opereaz cu interfaa prin intermediul
browserului web de pe calculatorul propriu. Acesta emite cereri ctre serverul web pe care se
gsete propriu-zis codul surs (funcionalitatea) i primete informaiile dorite. Browserului web
i rmne sarcina de a formata informaiile pentru afiare. Dac sunt necesare informaii din baza de
date, atunci serverul web este cel care le cere de la serverul de date i le prelucreaz, acest lucru
fiind transparent pentru calculatorul client ([163]).
1.2. Tezaure
Tezaurele lingvistice pun la dispoziie informaii asupra relaiilor dintre cuvinte, n principal
despre sinonimia dintre acestea. Fiecare apariie a aceluiai cuvnt n cadrul mai multor categorii ale
tezaurului reprezint sensuri diferite pe care le poate avea cuvntul. O mulime de cuvinte din
aceeai categorie reprezint o mulime de cuvinte nrudite din punct de vedere semantic ([220]).
EuroVoc este un tezaur multilingv i multidisciplinar care acoper terminologia domeniilor
de activitate ale Uniunii Europene, punnd accentul pe activitatea parlamentar. EuroVoc este
disponibil n 22 de limbi oficiale ale Uniunii Europene (bulgar, ceh, danez, englez, eston,
finlandez, francez, german, greac, italian etc), n limba uneia din rile candidate (croat) i n
limba unei ri tere (srb) ([215]). EuroVoc este gestionat de Oficiul pentru Publicaii al Uniunii
Europene ([215]), care a trecut la gestiunea bazat pe ontologie a tezaurelor i la tehnologii
specifice web-ului semantic, n conformitate cu recomandrile W3C i cu ultimele tendine ale
standardelor n materie de tezaure ([216]).
Tezaurul EuroVoc este utilizat, printre altele, de ctre Parlamentul European, Oficiul pentru
Publicaii, parlamentele naionale i regionale din Europa, precum i de administraiile naionale i
de utilizatorii privai din statele membre ale Uniunii Europene i din ri tere, n sistemele de eLearning pentru predarea disciplinelor juridice, relaii internaionale i politice.
rspunsurilor din anchet a nregistrat o prim etap notabil prin apariia atlasului lingvistic sonor
intitulat LAtlante linguistico del ladino centrale e dialetti limitrofi (Hans Goebl i
Roland Bauer, 1978-1989), care se ntemeiaz pe asocierea bazei de date constituit din
materialul de anchet prezentat n transcriere fonetic cu fiierul audio corespunztor ([15]).
Mai aproape n timp i n privina concepiei de ansamblu este viziunea care a stat la baza
elaborrii Atlasului lingvistic italian (Atlante linguistico italiano , L. Massobrio, G. Ronco
et ali, vol. I, 1995; vol. II, 1996; vol. III, 1997), care izbutete performana de a se menine
pe linia cartografiei lingvistice de tradiie clasic valorificnd n acelai timp resursele
tehnoredactrii asistate de calculator ([15]).
n aceeai ordine de idei, trebuie menionat i Atlas multimdia prosodique de
lespace roman (AMPER), proiect iniiat de Centrul de Dialectologie al Universitii Stendhal
Grenoble 3, care vizeaz proiectarea cartografic a variabilitii intonaionale n spaiul romanic cu
ajutorul mijloacelor puse la dispoziia lingvitilor de noile direcii informatice ([15]).
n spaiul romnesc, cercetri susinute n aceast direcie au nceput n anul 2000, n cadrul
Filialei Iai a Academiei Romne, printr-o colaborare interdisciplinar ntre cercettori de la
Institutul de Informatic Teoretic i de la Institutul de Filologie Romn A. Philippide. Scopul
acestui proiect a constat n realizarea unui sistem informatizat cu ajutorul cruia s se poat edita
atlasele lingvistice romneti regionale, precum i textele dialectale aferente respectivelor atlase.
Cercetrile s-au desfurat n cadrul a dou programe ale Academiei Romne, intitulate Cercetri n
domeniul foneticii i fonologiei limbii romne, cu aplicaii la atlasele lingvistice romneti
regionale (20002002) i, respectiv, Proiectarea i implementarea unui sistem integrat de aplicaii
software pentru realizarea Noului Atlas lingvistic romn, pe regiuni i editarea textelor
dialectale (20032004) ([125]).
Sistemul software ce modeleaz atlasul lingvistic electronic conine module care realizeaz
gestionarea urmtoarelor grupe de informaii (fig. 1.4.) ([125]):
simboluri pentru editarea transcrierilor fonetice;
dicionarele atlasului lingvistic (cuvinte de baz, puncte de anchet, transcrieri fonetice);
informaii grafice pentru descrierea hrilor;
hrile atlasului lingvistic, care pot fi consultate i/ sau tiprite.
Fig. 1.4. Componentele atlsasului lingvistic electronic ALR (preluat din [15])
11
Din punct de vedere funcional, atlasul lingvistic electronic este structurat pe dou
componente principale ([125]):
a) proceduri pentru pregtirea datelor primare (introducerea materialului lingvistic,
realizarea hrilor interpretative, realizarea planelor cu material necartografiat etc.);
b) interfaa multimedia.
Schema de funcionare a aplicaiei software n varianta sa interactiv (i.e. acces Internet)
poate fi urmrit n fig. 1.5.
Fig. 1.5. Schema de funcionare a atlasului lingvistic electronic ALR (preluat din [125])
Pentru structurarea informaiilor lingvistice i grafice necesare redactrii atlasului lingvistic
s-au configurat unumite Dicionare n care s-au colectat informaiile primare privind titlul hrilor
(cuvinte de baz), punctele de anchet, speech (colecie audio), transcrierea fonetic i notele
asociate transcrierii fonetice. Fiecare dintre aceste dicionare are o funcie bine definit, dup cum
urmeaz ([125]):
a) Dicionar Cuvinte de baz: conine fondul de cuvinte (titlul hrilor) care pot fi gsite
n atlasul lingvistic electronic, ntrebrile care au fost puse la anchet, note, observaii i,
eventual, imagini ce pot fi folosite n ntrebrile indirecte;
b) Dicionar Puncte de anchet: conine informaii (cod, nume, observaii) despre
punctele de anchet prezente n cadrul atlasului lingvistic;
c) Colecia audio: include nregistrrile n format WAV a rspunsurilor date n timpul
anchetei, pentru fiecare cuvnt din dicionar. Aceast colecie se poate constitui doar dac
ancheta dialectal a fost conceput a se desfura n faa microfonului, nregistrrile
astfel realizate putnd fi ulterior prelucrate pentru a intra n baza de date a atlasului
electronic;
d) Dicionar Transcrieri fonetice: reprezint elementul principal al modulului i conine
transcrierea fonetic a rspunsului la ntrebarea pus n anchet pentru fiecare cuvnt din
dicionarul Cuvinte de baz n fiecare punct de anchet, iar, acolo unde este posibil, i
nregistrarea audio corespunztoare din Colecia Audio.
12
Conexiunile dintre informaiile stocate n dicionarele ALR sunt reprezentate n figura 1.6.
Fig. 1.6. Conexiunile dintre dicionarele care alctuiesc atlasul lingvistic electronic ALR
(preluat din [125])
aplicaie informatic distins n anul 2006 cu premiul Octav Mayer al Academiei Romne, Filiala Iai
Proiectul de fa, intitulat Romanian Online Dialect Atlas (RODA), se bazeaz pe experiena pe care cei doi
informaticieni au acumulat-o odat cu informatizarea Atlasului dialectal al Finlandei
3
13
aria de activitate a filologiei pot realiza, cu ajutorul unui inventar predefinit de simboluri, diferite
hri intepretative de tip dialectometric. Pornind de la acest aspect, una dintre facilitile importante
oferite de acest program informatic4 const n faptul c, odat introdus n baza de date, materialul
lingvistic va putea susine cu uurin elaborarea unor hri interpretative independente i conforme
intereselor tiinifice ale fiecrui utilizator, aceast operaiune fiind destul de dificil de realizat (sub
raport temporal i ca volum de munc) n formatul clasic al atlaselor lingvistice ([125]).
La ora actual, se lucreaz la digitizarea primelor dou volume publicate din NALR. Criana,
precum i la introducerea n baza de date a materialului pentru urmtoarele dou volume.
Ultimul proiect (n ordine cronologic) de informatizare a atlaselor lingvistice romneti
aparine specialitilor dialectologi i informaticieni din centrul academic ieean, aceast iniiativ
venind ca o continuare fireasc a experienei n domeniu acumulat de acetia de-a lungul ultimilor
ani. Proiectul poart titlul Atlasul lingvistic audiovizual al Bucovinei (ALAB), prima faz de
dezvoltare a acestuia fiind preconizat pentru anii 20102013, prin intermediul unui grant oferit de
CNCSIS ([125]).
Realizri de excepie n domeniul lingvisticii romneti, atlasele lingvistice romneti
prezentate, pe regiuni, ilustreaz, prin hrile i documentaia puse la dispoziie, evoluia limbii
romne, constituindu-se n instrumente de lucru foarte utile pentru studenii i cercettorii din aria
de activitate a filologiei.
14
n prelucrarea limbajului natural se folosesc n ultimii ani, din ce n ce mai mult, ontologiile
lexicale. Ca i tezaurele binecunoscute n regsirea de documente, n ontologiile lexicale sunt
stocate numeroase cuvinte (n forma lor lematizat), mpreun cu relaiile semantice sau lexicale
dintre ele. Cuvintele sunt abstractizate ca uniti semantice pentru exprimarea conceptelor. ntre ele
se stabilesc relaii ierarhice (pentru indicarea termenilor mai generali i a celor specifici), de
echivalen (stabilite ntre sinonime) sau asociative (relaii care nu sunt nici ierarhice, nici de
echivalen, dar se stabilesc ntre cuvinte, iar utilizatorul le accept ca rspuns la ntrebarea sa).
Ceea ce difereniaz o ontologie lexical de un tezaur este nivelul axiomatic al descrierii
conceptelor denotate de cuvintele reprezentate. Pe lng definiie, relaiile de tip ierarhic
(hiperonim, hiponim), meronimic sau de alt natur, o ontologie lexical pune n eviden o legtur
de tip ontologic, la un concept interlingual caracterizat de o serie de definiii i axiome ([13]).
1.4.1. Wordnet
Att n cercetrile moderne de lingvistic formal, ct i cele de tehnologia limbajului,
componentei lexicale i revine o poziie central. Astfel se explic interesul crescut pentru
dezvoltarea de resurse lexicale multilingve. Studiul computaional al dicionarelor electronice,
natura informaiei ce trebuie inclus n ele i tipul de prelucrri pe are le poate facilita o anumit
structurare a unui mare volum lexical au fost fundamental influenate de proiectul WordNet ([175]).
WordNet5 ([55], [106], [107], [108]) reprezint n primul rnd o baz de date lexical
interactiv, dezvoltat n ultimii 20 de ani, pentru limba englez, la Universitatea Princeton ([211]),
de ctre un grup de cercettori condus de profesorul George Miller. n acelai timp, WordNet poate
fi privit ca un dicionar semantic, deoarece cuvintele sunt localizate pe baza afinitilor
conceptuale cu alte cuvinte, spre deosebire de cazul dicionarelor clasice, unde cuvintele sunt
ordonate alfabetic. Dei este similar unui tezaur, WordNet este mult mai util aplicaiilor
inteligenei artificiale, ntruct este nzestrat cu o bogat mulime de relaii ntre cuvinte i sensuri
ale cuvintelor, ceea ce i confer caracterul de reea semantic. WordNet este implementat n
limbajele Prolog, C i Java ([72]).
WordNet conine majoritatea substantivelor, verbelor, adjectivelor i adverbelor limbii
engleze, organizate n mulimi de sinonime numite synset-uri ([175]). Fiecare synset reprezint un
concept. Spre deosebire de dicionarele alfabetice standard, WordNet structureaz informaia
lexical n termeni de sensuri ale cuvintelor. WordNet face corespondena dintre formele tip ale
cuvintelor i sensurile acestora utiliznd categoria sintactic ca parametru. Astfel, cuvintele
aparinnd aceleiai categorii sintactice care pot fi folosite pentru a exprima acelai neles sunt
grupate ntr-un synset. Cuvintele polisemantice aparin mai multor synset-uri ([72]).
n WordNet6, relaiile semantice se stabilesc ntre cuvinte, ntre cuvinte i synset-uri, precum
i ntre synset-uri. Fiecare cuvnt intete ctre unul sau mai multe synset-uri, fiecare dintre acestea
corespunznd unui anumit sens al cuvntului respectiv. Prin urmare, diferite cuvinte pot inti ctre
5
n anul 1986, George Miller are iniiativa crerii The Princeton WordNet (PWN, [55]) i proiecteaz structura acesteia,
conceput pentru a servii la testarea teoriilor curente privitoare la memoria semantic uman. Verbele sunt adugate
reelei WordNet n anul urmrtor (1987), iar prima versiune (1.0) a acesteia este fcut publica n anul 1991. Deja la
nivelul anului 2006 se efectuau zilnic circa 8000 operaii de download ale reelei Wordnet pentru limba englez i
existau reele semantice de tip WordNet, mai mult sau mai puin dezvoltate pentru 40 de limbi.
6
n versiunea curent (versiunea 3.0), WordNet conine 155 287 cuvinte organizate prin intermediul relaiilor semantice
ntr-un numr de 117 659 sensuri, reprezentate prin tot attea synset-uri. Aceste numere sunt ns aproximative, ntruct
WordNet continu s creasc, noi caracteristici fiindu-i adugate pe parcurs. Versiunea 2.1, de pild, este prima care
ncorporeaz diferenele ntre clase i instanieri ale lor descrise n [110], ceea ce conduce la crearea unei semi-ontologii
de substantive n WordNet. Ontologia substantival reprezint, de altfel, poriunea cel mai bine dezvoltat a bazei de
cunotine WordNet ([72]).
15
un acelai sens (synset). Bogia mulimii de relaii stabilite ntre synset-uri este ceea ce face reeaua
semantic WordNet s fie att de puternic i de interesant pentru diferite tipuri de aplicaii.
Exemple de relaii semantice existente n WordNet sunt sinonimia (synonymy), folosit pentru a
forma synset-urile, hipernonimia (hypernymy)7 i hiponimia (hyponymy), corespunznd relaiei de
tip isa i respectiv relaiei inverse (reverse isa), meronimia (meronymy), corespunznd relaiei
parte-din, relaia cauzal referitoare la verbe i altele ([72]).
WordNet reprezint o baz de date lexical a limbii engleze care a fost adoptat pe scar
larg pentru o ntreag varietate de aplicaii practice din domeniul inteligenei artificiale, n general,
i din subdomeniul procesrii limbajului natural, n mod special. Muli cercettori, care utilizeaz
WordNet n domeniul inteligenei artificiale, consider c aceasta reprezint o baz de cunotine
lexical i o valorific ca atare. Procesarea cunotinelor a dobndit noidimensiuni n S.U.A.
datorit existenei WordNet. n acelai tmp, comunitatea tiinific internaional se arat extrem de
interesat de dezvoltarea unor baze lexicale de tip WordNet pentru ct mai multe limbi, n
ncercarea de a crea o infrastructur ontologic uniform ([72]).
Printre posibilele aplicaii ale WordNet8 n cele mai variate domenii se pot enumera
regsirea informaiei, extragerea informaiei, dezambiguizarea, generearea limbajului natural,
dicionarele electronice, achiziia de cunotine, nvarea cu sau fr ajutorul calculatorului sau a
reelelor de calculatoare9. mbuntirea la nivel cantitativ a wordnet-ului mai multe serii
sinonimice, mai muli literali echivalai este de maxim importan pentru aplicaiile de traducere
automat din i n limba romn, dar i pentru sistemele de e-Learning pentru nvarea limbilor
strine.
Cu ajutorul relaiei de hiperonimie, conceptele de tip substantiv i de verb sunt structurate sub form de ierarhii. Cele
de adjectiv i de adverb au o structur diferit (cluster). n WordNet exist 11 ierarhii substantivale i 512 ierarhii
verbale. Semantica relaiei de tip isa permite unui concept s moteneasc toate proprietile hipernonimelor sale. n
plus, proprietile tipice ale unui concept sunt enunate sub form de glos ataat fiecrui concept n parte. Fiecare
glos include o definiie, una sau mai multe explicaii suplimentare i unul sau mai multe exemple ([72]).
8
Reeaua WordNet este public disponibil la adresa web [211].
9
Posibilele aplicaii ale WordNet sunt citate n peste 300 de lucrri tiinifice.
16
general al proiectului este de a dezvolta instrumente inteligente care s asiste persoanele doritoare s
nvee o limb strin, cu precdere s nvee o limb tehnic, de specialitate ([259]). Utiliznd
tehnici NLP, n cadrul proiectului este dezvoltat un sistem e-Learning inteligent de nvare a
limbilor strine care poate fi adaptat uor diferitelor limbi surs, limbi int i domeniilor tehnice
sau tiinifice (ca i limbi surs au fost luate n considerare limbile bulgar, romn i rus, ca limb
int limba englez, ca i domenii de specialitate informatica, domeniul afacerilor, iar ca i domeniu
tehnic tehnologiile comunicaiilor) ([260]). Unul dintre modulele realizate n cadrul proiectului este
sistemul bazat pe cunotine pentru identificarea, adnotarea i utilizarea metaforelor ntr-un corpus
ca suport pentru nvarea terminologiei unei limbi strine. Arhitectura sistemului este prezentat n
figura 1.8., reflectnd prelucrrile realizate de modulele componente, fluxul de informaii i
interaciunile dintre acestea. Locurile profesorului i al studentului sunt alese pentru a ilustra accesul
lor la module i la informaii, iar procesarea metaforei presupune trei activiti diferite: (1)
identificarea noilor metafore; (2) adnotarea metaforelor identificate; (3) utilizarea metaforelor
([258]).
Fig. 1.8. Arhitectura sistemului bazat pe cunotine pentru identificarea, adnotarea i utilizarea
metaforelor ntr-un corpus n scopul nvrii unei limbi strine din cadrul LarFLaST (preluat din [258])
1.4.2. EuroWordNet
La mijlocul anilor 90, datorit multiplelor aplicaii dezvoltate pe baza WordNet, a fost
puternic resimit nevoia de a se crea baze de date asemntoare i pentru alte limbi, n special
pentru cele europene. Un efort imens tiinific i financiar a fost depus n Europa Occidental,
pentru a se crea aa numita EuroWordNet (EWN), utiliznd varianta american WordNet ca model
([72]). Acest efort tiinific s-a concretizat n anul 1996, n cadrul proiectului de cercetare
dezvoltare EuroWordNet([186]), sub conducerea Universitii din Amsterdam ([213]).
Caracteristica principal a acestuia este multilingualitatea: pentru 10 din limbile europene au
fost realizate reele semantice monolingve, urmnd ca wordneturile obinute s fie corelate prin
intermediul unui index interlingual (ILI).
S-a obinut astfel o ontologie lexical multilingv, n care ILI conine reprezentrile
conceptuale ale nelesurilor lexicalizabile n limbile ce formeaz ansamblul multilingv. Fiecare
neles din oricare dintre limbile reprezentate n reeaua multilingv este pus n coresponden cu un
17
singur concept din ILI. Sinseturile din dou sau mai multe limbi care sunt n coresponden cu
acelai ILI sunt echivaleni de traducere ([175]).
1.4.3. BalkaNet
Aprut din necesitatea acut de resurse lingvistice generale i generice ([170]), ontologia
lexical multilingv BalkaNet a fost dezvoltat n cadrul proiectului european cu acelai nume,
desfurat n perioada septembrie 2001 - august 2004 i include cinci limbi (bulgar, greac,
romn, srb, turc), plus limba ceh (al crei wordnet, nceput n cadrul proiectului EWN, a fost
mbogit ([172], [173]). Dintre partenerii romni ai proiectului enumerm ([170]):
RACAI10-Bucureti (coordonator Acad. Dan Tufi);
UAIC-Iai (coordonator Prof. Dan Cristea);
voluntari (specialiti romni) din strintate;
studeni masteranzi de la UAIC i UB;
cercettori din cadrul Cambridge Institute of Language Research (CILR) ([239]);
10
RACAI = Research Academical Center for Artificial Intelligence actualul Institut pentru Cercetri n Inteligen
Artificial al Academiei Romne - ICIA
18
Dicionarul bilingv En-Ro extras automat din corpusuri paralele (cu corecii i extensii
manuale ulterioare);
Dicionarul de sinonime;
Corpusurile RACAI;
Numeroase programe de prelucrare a limbajului natural (lematizatoare,
dezambiguizatoare morfo-sintactice, parsere, generatoare de cod XML, browsere etc).
11
WordNet-Affect este accesibil la cerere prin intermediul interfeei online a WordNet Domains, la adresa web [223]
20
Fig. 1.12. Interfaa online a WordNet Domains, de unde se poate accesa la cerere i WordNet-Affect
(preluat din [223])
Dup ce s-au verificat toate synset-urile din WordNet-Affect, pentru crearea WordNet-Affect
pentru limba romn s-au parcurs urmtoarele etape: traducerea automat, nlturarea traducerilor
irelevante i generarea synset-urilor pentru limba romn ([20]).
Avnd capacitatea de a recunoate automat emoiile i afectele din text i putnd fi descrcat
gratuit de la [192], considerm c WordNet-Affect n limba romn este o resurs lexical care
poate fi utilizat n procesele de instruire i evaluare ale studenilor i angajailor, cu precdere n
cadrul celor care se desfoar la distan. Aceasta furnizeaz numeroase informaii importante
compensnd parte din dezavantajele datorate distanei dintre instructor i instruit.
1.5. Corpusuri
Fiind o noiune relativ nou, nu exist un consens asupra definiiei conceptului de corpus i
respectiv a clasificrii acestora. Exist, totui, o oarecare distincie fcut ntre noiunea de corpus i
cea de corpus computaional. Astfel, un corpus poate fi definit ca o colecie de piese ale limbajului,
selectate i ordonate dup un criteriu lingvistic, cu scopul de a fi utilizat ca un eantion al limbii
([170]). Pe de alt parte, un corpus computerizat este un corpus codificat ntr-un mod standardizat i
omogen cu scopul de a fi consultat ori de cte ori este nevoie, pe durat nedeterminat. Piesele de
limbaj din care este el alctuit trebuie s fie documentate n ce privete originile i proveniena
([153]).
Pentru mai mult de 20 de ani, din cei 30 de ani ai corpusurilor lingvistice, corpusul Brown a
fost considerat standard, avnd urmtoarele caracteristici ([170]):
conine 1.000.000 cuvinte;
are o distribuie aproximativ egal ntre registre si genuri lingvistice;
conine 500 de eantioane de cte 2000 de cuvinte;
eantioanele sunt extrase din texte publicate.
Mai trziu, s-au remarcat ([170]):
n anul 1985, Birmingham Collection of English Texts cuprinznd 20.000.000 cuvinte;
n 1995, Bank of English cu 200.000.000 cuvinte;
21
Corpus literar clasificat dup: autor, gen, perioad, tem, coal etc;
Corpus de referin:
-
foarte mare;
este, de obicei, structurat ierarhic pe sub-corpusuri i componeni (exemple: ziare 50Mcuv, cri - 45Mcuv, reviste - 45Mcuv, radio - 40Mcuv, Ephemera - 1.5Mcuv,
vorbire informal - 8.5 Mcuv);
sunt n responsabilitatea unor instituii specializate ale rii respective (ex. Institutul
pentru Corpusul Limbii Cehe);
Corpus monitor:
-
Corpus paralel:
22
o colecie de texte, fiecare din ele fiind traduse n una sau mai multe limbi;
Corpusuri comparabile:
-
dou sau mai multe corpusuri pentru limbi diferite ce conin texte similare;
23
CAPITOLUL 2
PROIECTUL TEHNOLOGII LINGVISTICE PENTRU E-LEARNING
(LT4EL)
2.1. Prezentare general
Avnd n vedere marele volum de coninut static i dinamic dedicat satisfacerii cerinelor
impuse de e-Learning, dezideratul major pentru extinderea utilizrii acestui coninut este de a
perfeciona eficacitatea regsirii i accesibilitii acestuia prin folosirea sistemelor de management
al nvrii. Obiectivul proiectului Tehnologii Lingvistice pentru e-Learning (eng. Language
Technology for eLearning LT4eL) ([235]) a fost abordarea i rezolvarea acestei probleme prin
dezvoltarea i utilizarea de funcionaliti bazate pe tehnologii lingvistice i prin integrarea
coninutului semantic care mbuntesc managementul, distribuia i regsirea materialului de
nvare ([235]).
n cadrul proiectului, s-au utilizat resurse i unelte ale tehnologiilor lingvistice pentru
generarea semi-automat a metadatelor descriptive. Astfel, au fost dezvoltate noi funcionaliti,
precum un extractor de cuvinte cheie i un detector de candidai n glosar, adaptate tuturor limbilor
implicate n proiect (bulgar, ceh, englez, german, maltez, olandez, polonez, portughez i
romn) ([165]). Coninutul semantic a fost integrat ca ontologii, pentru a perfeciona
managementul, distribuia i posibilitile de cutare i regsire a materialului de nvare.
Ontologiile pot permite regsirea n context multilingv a informaiei cutate. Aceste funcionaliti
pot fi integrate n orice sistem de management al nvrii, ns n scopul validrii, n cadrul
proiectului a fost adoptat sistemul ILIAS. A fost creat o metodologie de validare adecvat
investigrii impactului acestor noi funcionaliti n cadrul nvmntului n context electronic
multilingv ([235]).
formatare a documentului, format definit de un DTD (Document Type Definition) general ([137]).
12
13
25
Calculat ca 2*P*R/(P+R), unde P (precizia) = numrul de obiecte corect identificate de program raportat la numrul
de obiecte identificate de program i R (recall) = numrul de obiecte corect identificate de program raportat la numrul
de obiecte existente ([137])
15
Formatul convenit pentru realizarea ontologiei a fost DOLCE ([238]). ntr-o etap ulterioar, forma final a acestei
ontologii i lexiconul aferent au fost mapate integral la Princeton WordNet ([211]), lucru ce va permite integrarea ei cu
alte ontologii de domenii, cum ar fi SUMO, dar i utilizarea ei n cadrul altor proiecte ([137])
26
cadrul proiectului LT4eL a fost dezvoltarea de gramatici locale pentru cele 9 limbi ale proiectului
care s surprind abloane de definiii. Dintre dificultile majore ntlnite de cei implicai n
acest proces amintim evidenierea diferitelor metode de a exprima definiiile, pstrnd o lexicalizare
minim a cuvintelor care introduc definiiile (precum verbele a fi, a reprezenta etc.). Alte
probleme au fost definiiile ntrerupte i marcherul de terminare a unei definiii, n special n
cazul n care acesta nu coincide cu semnele de punctuaie ([74]).
Informaia lingvistic din definiiile marcate automat a fost folosit ca punct de plecare n
identificarea posibilelor abloane. Cercetrile anterioare n acest domeniu au artat c
gramaticile locale bazate pe abloane sintactice sunt foarte utile atunci cnd analiza semantic
lipsete ([119], [96]).
Crearea gramaticii pentru limba romn a nceput cu descrierea unor reguli simple i
aplicarea acestora pentru definiiile extrase manual. Observnd n mod repetat erorile, s-a
mbuntit gramatica pentru a trata toate cazurile. Dup cum susin cei ce au rspuns de aceast
etap a proiectului, dezavantajul acestei metode este c gramatica a devenit dependent de corpus
([74]).
Astfel, definiiile au fost clasificate n ase categorii cu scopul de a reduce spaiul de cutare
i complexitatea regulilor. Tipurile de definiii identificate n textele romneti au fost
clasificate dup cum urmeaz ([74]):
1. is_def definiii coninnd verbul a fi;
2. verb_def definiii introduse de verbe specifice, diferite de a fi. Verbele
considerate pentru limba romn sunt a indica, a arta, a preciza, a reprezenta, a
defini, a specifica, a consta, a fixa, a permite;
3. punct_def definiii introduse de semne de punctuaie precum cratima -,
paranteze rotunde (), virgula , etc;
4. layout_def definiii care pot fi deduse din aranjarea n pagin: aici pot fi
incluse tabelele n care termenul definit i definiia sunt n celule separate sau
termenul definit este cuvnt titlu i definiia este pe alt rnd;
5. pron_def definiii anaforice, cnd termenul definit este prezent
propoziie anterioar i el este doar referit n definiie, de obicei prin pronume;
ntr- o
6. other_def alte tipuri de definiii, care nu pot fi incluse n nici una din
categoriile anterioare. n aceast categorie sunt construcii care nu folosesc verbe pentru
introducerea termenului, ci construcii specifice precum adic.
Aplicaia lxtransduce prezentat n ([162]) a fost folosit pentru a identifica n fiiere
XML definiiile descrise n gramatica romneasc. n gramatica pentru limba romn au fost
create reguli pentru fiecare tip de definiie din cele prezentate anterior i o regul principal
folosit pentru a apela regulile individuale. Toate aceste reguli au fost construite pe baza
observaiilor fcute asupra definiiilor adnotate manual ([74]).
Construirea gramaticii folosite pentru extragerea definiiilor romneti a nceput cu
construirea unor reguli simple care identific prile de vorbire. Aceste reguli au fost
combinate pentru a se obine reguli mai complexe. Dup crearea regulilor care identific diverse
structuri se apeleaz regulile care identific definiii. Un alt tip de regul a fost cea care
poate idetifica sfritul definiiei ([74]).
Folosind lxtransduce ([162]) s-au identificat poriunile din fiier care corespundeau unei
27
reguli i s-au marcat corespunztor acele zone ca fiind definiii. Pentru fiecare tip de definiie,
precizia i recall au fost calculate n dou moduri: la nivel de cuvnt i la nivel de propoziie
([26]). La nivel de cuvnt, precizia a fost neleas ca fiind numrul de cuvinte care se
gseau n acelai timp n definiiile adnotate manual i n cele identificate automat, mprit
la numrul de cuvinte din definiiile identificate automat. Corespunztor acestei formule, recall sa calculat ca fiind raportul dintre numrul de cuvinte gsite n cele dou tipuri de definiii i
numrul total de cuvinte din definiiile adnotate manual. La nivel de propoziie, s-a considerat
c o propoziie face parte dintr-o definiie manual sau automat dac i numai dac ea conine o
parte dintr-o definiie manual sau automat. n acest caz, precizia i recall au fost
calculate asemntor valorilor calculate la nivel de cuvnt ([74]).
Conform membrilor proiectului care au rspuns de execuia lucrrilor din aceast etap a
proiectului ([74]), rezultatele cele mai bune au fost obinute pentru definiiile care au fost
identificate folosind verbe (majoritatea cazurilor). Dintre acestea, definiiile introduse de verbul
a fi au fost cel mai greu de identificat, deoarece acest verb aprea foarte frecvent n limba romn
i astfel au fost luate n considerare foarte multe cazuri care nu reprezintau definiii.
Etapa a patra a proiectului n discuie a avut ca scop integrarea de noi funcionaliti n
Sistemul de Management al nvrii (SM) ILIAS. Totodat, datorit modularitii noilor resurse
dezvoltate, documentaia care va fi pus la dispoziie va permite integrarea i n alte sisteme SM
open-source, datorit modularitii noile resurse dezvoltate. Adnotarea metadatelor, cutarea bazat
pe ontologii i navigarea va permite asamblarea coninutului individual pentru diferii e-instruii,
precum i direcii de nvare individuale ([235]).
Validarea noilor funcionaliti n SM-ul ILIAS s-a realizat n etapa a cincea a proiectului.
Scopul acestui pachet de lucru a fost s evalueze ([235]):
utilizarea funcionalitilor noi;
utilizarea platformei i a modului n care a fost afectat de integrarea noilor
funcionaliti;
impactul pedagogic al integrrii funcionalitilor.
Obiectivele propuse au fost realizate prin intermediul urmtoarelor activiti ([235]):
dezvoltarea unei metodologii de validare corecte pentru un SM;
pregtirea de experimente i chestionare;
experimente i chestionare pilot;
experimente de execuie i chestionare;
comparaie analitic a cazurilor de utilizare prevzute n proiect i cele realizate n
practic de grupul demonstrativ de utilizatori;
raportarea rezultatelor.
De diseminarea, transferul i popularizarea pe larg a rezultatelor programului s-a ocupat a
asea etap a proiectului, avnd urmtoarele grupuri int ([235]):
utilizatori finali n universiti: studeni i profesori;
comunitatea tiinific;
28
29
CAPITOLUL 3
PROIECTUL TEHNOLOGII LINGVISTICE PENTRU NVAREA
CONTINU (LTfLL)
3.1. Aspecte generale
nvarea mbuntit cu ajutorul tehnologiei (eng. Technology-enhanced Learning TEL)
devine din ce n ce mai rspndit n lumea educaiei. Astfel, se impun un numr nsemnat de
schimbri de ctre tehnologia nsi, cum ar fi accesul la instrumentele necesare, utilizarea i
optimizarea utilizrii acestora, precum i datorit problemelor de interoperabilitate, n cazul cnd se
utilizeaz diferite instrumente i dispozitive. Cu toate acestea, din ce n ce, instrumentele produse cu
ajutorul acestor tehnologii, i ne referim aici n principal la cele de coninut, au devenit o adevrat
provocare. Cantitile imense de coninut digital produs solicit noi strategii inovatoare i modaliti
diverse de a le manipula, n scopul de controla volumul de munc, att pentru tutori, ct i pentru
cursani, concomitent cu mbuntirea nelegerii a ceea ce a fost produs i contribuie la atingerea
obiectivelor de nvare ([228]).
Gasirea unor noi modaliti inovatoare pentru a aborda aceasta nou provocare este una
dintre ambiiile proiectului Tehnologii lingvistice pentru nvare continu (eng. Language
Technologies for Lifelong Learning LTfLL).
Obiectivele de referin ale proiectului sunt ([228]) :
1. s ajute oamenii s nvee ;
2. s ajute tutorii i profesorii s sprijine cursanii.
LTfLL este un proiect IST - FP7 EU STREP ce i propune dezvoltarea unei noi generaii de
servicii de asistare i recomandare, n vederea mbuntirii proceselor de construire a
competenelor, att individual, ct i colaborativ, i de creare a cunotinelor n contexte
educaionale sau n organizaii. Pentru dezvoltarea serviciilor sale, proiectul folosete tehnologii de
prelucrare a limbajului natural i de modelare i prelucrare socio-cultural i cognitiv. n cadrul
proiectului, activitile de cercetare sunt mpletite cu activiti de stabilire a fundamentelor prin
proiectarea cazurilor de utilizare i a scenariilor realiste din punct de vedere pedagogic, care s
conduc activitile de proiectare i de implementare a serviciilor i s ghideze procesul de validare
o infrastructur tehnic pentru crearea i integrarea serviciilor i a structurii de validare care s
permit o evaluare riguroas n condiii realiste i de funcionare multilingv ([229]).
LTfLL este ndreptat spre obiecte bazate pe text i utilizeaz diferite tehnologii lingvistice
pentru a le analiza i a oferi un feedback despre ele utilizatorilor. n cadrul proiectului au fost create
o serie de scenarii de relevan pedagogic care scot n eviden anumite probleme particulare
ntlnite n lucrul cu textul digital. Acestea se ncadreaz n zona de poziionare a instruitului i a
progresului lui, acestuia oferindu-i-se un feedback calitativ n ceea ce privete crearea textului,
extragerea de cunotine i partajarea lor ([228]).
Rezultatele obinute n cadrul proiectului mai sus menionat sunt prototipuri ale serviciilor
noii generaii bazate pe cercetare avansat, prin aplicarea tehnologiilor lingvistice n educaie.
Exploatarea acestora ntr-o pia de consum depinde la rndul ei de dezvoltarea, utililizabilitatea,
transferabilitatea acestora ctre alte domenii i alte medii de nvare etc. (vezi fig. 3.1.) ([228]).
30
Fig. 3.1. Utilizarea tehnologiilor lingvistice n educaie n cadrul proiectului LTfLL (preluat din [228])
Grupurile int, ca persoane vizate, din cadrul LTfLL, pot fi grupate n trei categorii ([228]):
1. Cercettori i dezvoltatori, persoane interesate n dezvoltarea ulterioar a serviciilor
LTfLL cu scopul de a crea produse de consum. Este vorba de dezvoltarea PLN prin
aplicaii n alte domenii, crearea unor noi servicii bazate pe tehnologiile limbajului
natural i integrarea i personalizarea acestora pentru mediile de utilizare specifice;
2. Furnizorii de servicii de coninut, persoane specializate care asigur suport organizatoric,
logistic i tehnic;
3. Utilizatorii finali ai serviciilor LTfLL, utilizatorii efectivi ai aplicaiilor LTfLL, i anume
curani de orice vrst, studeni i/sau profesori din diverse organizaii de nvmnt,
coli, reele de coli, universiti, companii i departamente de resurse umane, furnizori
de servicii de training etc.
Fig. 3.2. Prezentarea Leaner Positioning Service din cadrul LTfLL (preluat din [228])
3.2.2. Conspect (Service for Monitoring Conceptual Development) din cadrul LTfLL
n practica educaional modern, nvarea continu este un amestec ntre oportuniti
formale i informale, punndu-se accent n ambele cazuri pe autonvarea independent. Aceasta
este ncapsulat n mediile de nvare aparinnd locurilor de munc unde traiectoriile de nvare
reflect interaciuni ale instruiilor cu colegii de studiu i cu experi din domeniu, dar i cu clienii
(ex.: pacieni, instruii sau clieni). n astfel de circumstane complexe, pentru instruii i tutorii lor
este dificil uneori s decid cum poate un individ oarecare stpnii anumite subiecte cheie i cum
poate el aplica acestea n viaa cotidian. Prin urmare, autonvarea necesit suport prin intermediul
feedback-ului formativ, iar o problem care ar trebui rezolvat este cum s adune i s evalueze
probele pe care feedback-ul ar putea s se bazeze.
Conspect a fost conceput pentru a oferi un mijloc prin care dezvoltarea conceptual a
cursantului poate fi monitorizat, iar feedback-ul este furnizat prompt i eficient. Printr-o analiz
automat a textelor oferite de cursani, Conspect monitorizeaz acoperirea conceptual a subiectelor
din text printr-o comparaie cu altele, acumulate anterior, identificnd deficienele, ideile
preconcepute, dar i oportunitile de nvare n curs de dezvoltare ale instruiilor. Sunt utilizate
artefacte textuale (att pentru cursani individuali, ct i pentru grupuri de instruii), cum ar fi eseuri
sau blog-uri, pentru a stabili un model vizual, o conceptograma a modului cum cursanii refer
concepte. Astfel, cursanii sunt n msur s compare propriul modelul cu un model de referin
identificnd diferenele dintre ele sau cernd ajutor de la tutore. Acest lucru permite cursanilor s-i
monitorizeze parcursul educaional n timp. Utiliznd rezultatele furnizate de Conspect, tutorii pot
observa dezvoltarea conceptual a instruiilor i a grupurilor de instruii ([228]).
33
ofer ajutor;
se pot crea/modifica modele personale (se pot aduga probe, se pot vizualiza
reprezentri, se pot salva versiuni curente);
n ajutorul profesorului:
-
genereaz subiecte;
Fig. 3.3. Prezentarea Monitoring Conceptual Development (CONSPECT) din cadrul proiectului
LTfLL (preluat din [228])
34
3.2.3. PolyCAFe (Chat & Forum Analysis and Feedback System) din cadrul LTfLL
n ultimii ani, pentru a completa practicile tradiionale de nvare, instituiile educaionale
utilizeaz la scar larg internetul, tehnologiile web i mediile colaborative. Prin intermediul
interaciunilor cursanilor (individuali sau organizai n grupuri), tutorii i profesorii pot determina
nivelul de cunotine al acestora dintr-un anumit domeniu i capacitatea lor de a le aplica. Totui,
ceea se ntmpl n aceste interaciuni nu poate fi ntotdeauna controlat de ctre profesori, care, de
obicei, se concentreaz pe rezultatele proceselor de colaborare. Evaluarea contribuiilor individuale,
moderarea sau furnizarea feedback-ului relevant cu privire la calitatea acestor interaciuni web, n
ceea ce privete att coninutul, ct i colaborarea nsi ntre participani pare s consume foarte
mult timp i ncrctur cognitiv ([228]).
Computer Supported Collaborative Learning (CSCL) consider chat-ul drept elementul
central, din ce n ce mai utilizat n mediile academice, pentru susinerea procesului de nvare
colaborativ ([155]). Astfel, chat-ul a fost introdus n educaia formal i este totodat folosit de
ctre studeni n rezolvarea diverselor probleme, n dezbateri, cu scopul de a-i spori cunoaterea
ntr-un anumit domeniu i de a nva de la interlocutorii lor. Mai mult, chat-ul poate fi folosit de
ctre profesori n evaluarea studenilor lor. La ora actual exist foarte puine sisteme de analiz
automat i de generare de feedback pe baza istoricului conversaiei. Explicaia este dat de faptul
c pentru a evalua o discuie n profunzime este nevoie de prelucrarea limbajului natural, iar
tehnologiile existente n analiza lingvistic nu sunt nc suficient de mature, n special n domeniul
analizei conversaiilor de tip chat, domeniu care prezint dificulti suplimentare fa de analiza
textelor convenionale ([140]).
Soluie pentru problemele ridicate mai sus, sistem validat i dezvoltat n cadrul proiectului
FP7 LTfLL ([228]), PolyCAFe este unul dintre acestea i se bazeaz pe o integrare de diverse
metode de prelucrare a limbajului natural (Natural Language Processing NLP) ([9], [10], [94]),
analiza reelelor sociale (Social Network Analysis SNA) ([47], [168], [37]), analiz semantic latent
(Latent Semantic Analysis LSA), precum i metode specifice de data-mining i de regsire de
informaii ([169]).
Sistemul PolyCAFe sprijin tutorii i cursanii n analiza colaborrii ntre instruii, n
activitile individuale n echipele virtuale din care fac parte. El furnizeaz diferite informaii i date
cantitative i calitative cu privire la discuiile cursanilor n cadrul chat-urilor sau forum-urilor
(valori despre importana relativ a fiecrei replici, despre gradul de implicare n colaborare, efectul
social a ceea ce spun acetia etc.) i rezultate ale analizei coninutului replicilor acestora (ex.:
acoperirea conceptelor cheie care se doreau a fi discutate sau pstrarea firelor de dicuie). PolyCAFe
ofer feedback-ul vizual despre interaciunile i participarea social a cursanilor. Vizualizarea
conversaiei i a forum-ului este interactiv, ceea ce nseamn c instruiii i tutorii pot expora
perspective i fire ale discuiei diferite, pot vizualiza legturi descoperite de sistem ntre replici sau
mesaje, pot vedea irul utilizrii diferitelor concepte ([228]).
Figura 3.4. prezint arhitectura sistemului PolyCAFe, precum i modul de comunicare ntre
module. Funcionalitile cheie ale sistemului PolyCAFe sunt grupate (vezi fig. 3.5.) ([228]):
n scopul asistrii utilizatorilor pentru:
-
selectarea sarcinii;
analizarea chat-ului;
obinerea n mod automat a feedback-ului prin analiza textului din discuii, vzute ca
un ntreg, sau din anumite replici sau mesaje (pentru fiecare cursant);
Fig. 3.4. Principalele module ale sistemului PolyCAFe de analiz i feedback din cadrul
proiectului LTfLL (preluat din [169])
36
Fig. 3.5. Prezentarea sistemului PolyCAFe din cadrul proiectului LTfLL (preluat din [228])
Analiza din spatele sistemului PolyCAFe este derivat din polifonie i este centrat pe trei
concepte interdependente ([140], [10]):
1. replici poriuni de text ale cror limite sunt reprezentate de schimbarea subiectului
de discuie ([9]) i care nglobeaz elemental principal deanaliz din discuie.
Acestea exprim acte de comunicare ([94]), ct i evoluia conversaiei din
perspectiva dezvoltrii ei continue. n analiza propus ([140]), se ader la perspectiva
de separare a replicilor propus de Dong ([47]), n care introducerea unui punct nou
de vedere sau a unei intervenii din partea unui alt participant segmenteaz discursul,
schimbnd perspectiva proprie a vorbitorului. ntre replici pot exista dou tipuri de
legturi: implicite i explicite (fig. 3.6.). Participanii pot aduga legturi explicite pe
parcursul sesiunii de chat folosind o facilitate oferit de mediul de conversaie
utilizat (in acest caz, ConcertChat). Legturile implicite sunt identificate automat
prin intermediul co-referinelor, repetiiilor, lanurilor lexicale, tiparelor de interanimare i similaritii semantice ([169]). Pe baza acestor dou tipuri de legturi ntre
replici se construiete graful de replici, utilizat n cadrul evalurii ([167]), graf
aciclic, orientat, n care nodurile sunt replici, iar ponderile arcelor sunt date de
similariti ntre replici multiplicate cu ncrederea asociat fiecrei legturi (valoare
predefinit atribuit n funcie de metoda de detecie a legturii). Orientarea fiecrui
arc este dat de evoluia n timp a discuiei;
2. voci poziii distincte, puncte de vedere cu impact asupra conversaiei ([168]),
perspective sau topice ([94]) aparinnd unui singur participant sau a unui grup ai
cror membrii partajaz idei similare. Un anumit individ poate personaliza, exprima
i adera la diferite voci prin interaciunea sa cu ali indivizi. Totodat, vocile generale
integreaz pe lng vocile personale i vocile exterioare ale altor indivizi, voci care
37
exprim influena celorlali asupra opiniei proprii. O replic poate deveni o voce i
poate ncorpora ecourile unor voci precedente ([9]);
3. ecouri replicri ale vocilor n timp, cu o putere suficient de mare pentru a influena
alte voci n unul sau mai multe contexte. Pot fi identificate dou tipuri de ecouri:
ecouri individuale, cnd participantul personalizeaz o voce, i ecouri colective, cnd
mai muli participani reacioneaz la o voce, mbogind contextul. Ecourile vocilor
curente pot influena replicile ulterioare i pot, de asemenea, modela vocile personale
ale fiecrui participant.
Fig. 3.6. Cele dou tipuri de legturi dintr-un chat (preluat din [168])
Dup identificarea i analizarea conceptelor de baz, n cadrul PolyCAFe, au fost identificate
i considerate dou efecte majore ([140]):
1. efectul retrospectiv sinergetic, bazat pe vocile care se suprapun i se ntrees ntr-o
manier polifonic ale replicilor precedente. Astfel, ecourile lor modeleaz i
influeneaz replica curent ntr-un context dat;
2. efectul prospectiv exprim implicaii viitoare n firul de discuie cu privire la
propriul ecou i perspectiv n contextul considerat, subliniind natura impredictibil
i maleabil a unei discuii.
Din punct de vedere tehnic, PolyCAFe este constituit dintr-o serie de procesri, pe diverse
dimensiuni ([140]):
1. Componenta cantitativ este asigurat cu ajutorul software-ului NLP realizat la
Standford ([242]), cu excepia spell checker-ului (care utilizeaz Jazzy ([243]) i
[244]), i presupune realizarea de procesri specifice prelucrrii limbajului natural
([168], [169]). (Conform [140], sunt n construcie dou alternative de realizare a
38
tokenizarea (eng. tokenizer). Pentru identificarea sensurilor cuvintelor din chat este
utilizat ontologia lexical WordNet (http://wordnet.princeton.edu). Aceasta este
organizat ca un graf a crui celul de baz o reprezint synset-ul. Un synset este o
mulime de sinonime. Un cuvnt poate avea sensuri multiple i poate aparine mai
multor synseturi. Synseturile sunt legate ntre ele prin relaii ca hiponimie,
hypernimie, holonimie, meronimie;
39
analiza de coninut care identific principalele concepte ale chat-ului sau forumului
utiliznd modulul NLP pipe (vezi fig. 3.4.) ([169], [168]);
identificarea actelor de vorbire: o mulime derivat din DAMSL ([195]) i tipurile de
argumentare din replici ([160]);
detectarea legturilor implicite folosind ([169]):
-
repetiiile (de cuvinte obinuite sau entiti denumite) care au fost identificate de
Tannen ca fiind foarte importante n implicarea participanilor n conversaie ([160]);
lanurile lexicale care identific relaiile dintre cuvinte de pe acelai nivel cu ajutorul
msurilor de similaritate semantic bazate pe WordNet;
repetiiile;
vorbirea cumulativ (eng. cumulative talk) ([105]), sau cu cuvintele lui Sacks, replici
colaborative (eng. collaborative utterances), situaie n care mai muli participani
rostesc mpreun o fraz, ca i o singur persoan ([146]);
convergena, n cazul n care o replic leag dou fire de discuie avnd topice
diferite ([141]);
evaluarea replicilor;
analiza colaborrii bazat pe graful replicilor i pe scorurile asociate acestora.
40
Trsturile replicilor din cadrul conversaiilor studenilor sunt obinute utiliznd informaiile
([140]):
1. lexicale: sunt calculate metrici de suprafa pentru toate replicile unui participant n
vederea determinrii unor factori precum fluena n vorbire, ortografie, dicie sau
structura replicii ([129], [241]), care, combinai liniari, duc la obinerea unui scor
parial pentru fiecare participant. (Inafara factorilor obinui din studiile lui Page,
proxe-uri aproximri ale intereselor realizate de calculator i trins-uri variabile
intrinseci, msuri date de evaluatori umani, folosite pentru evaluare, n cadrul acestui
nivel este aproximat i lizibilitatea uurina cu care o persoan poate parcurge i
nelege discuia purtat ([241]). Acest ultim factor luat n calcul are un rol important
ntruct cercetrile n domeniu arat c un text uor de citit de ctre audien are un
mare impact asupra nelegerii, reinerii, vitezei de citire i a persistenei informaiilor
citite;
2. sintactice: la acest nivel se realizeaz analiza morfologic bazat pe verificarea
ortografiei, aducerea la rdcina comun, tokenizare i etichetarea prilor de vorbire
([102]);
3. semantice, printr-o evaluare semantic folosind LSA care presupune construirea unui
spaiu de vectori ([84], [109], [188]). Prin aplicarea funciei cosinus se evalueaz
importana unei replici pe baza similaritii semantice dintre replic i ntreaga
discuie, aceast similaritate evalundu-se inndu-se cont de un set predefinit de
topice care se caut s fie acoperite n cadrul discuiei. (n scopul aplicrii LSA se
definete o matrice termen-document utilizndu-se un corpus de chaturi, adnotat
automat cu prile de vorbire corespunztoare; respectivei matrici i se aplic Tf-Idf
(frecvena termenilor inversul frecvenei documentelor), apoi descopunerea n
valori singulare (SVD) i proiecia spaiului dup k dimensiuni, unde k este
determinat empiric, avnd valoarea 300, aproximativ egal cu rdcina ptrat a
numrului de concepte existente n spaiul antrenat ([41]).
Pornind de la teoria dialogismului i a polifoniei i utiliznd o multitudine de procedee
pentru a evalua replici, participani i gradul de colaborare, PolyCAFe este un sistem care ofer
feedback i suport pentru cei care folosesc discuiile de tip chat sau forum n activitile de nvare.
Rezultatele obinute n urma testrilor i rundelor de validare a sistemului permit o evaluare global
a contribuiei unui participant, ntr-o conversaie purtat ntr-un mediu colaborativ, n care factorul
subiectiv este eliminat aproape n totalitate.
n capitolul 5 vom prezenta o trecere n revist a principalelor sisteme de analiz a
interaciunilor la nivelul conversaiilor de tip chat sau forum, de evaluare a contribuiilor
individuale, moderare sau furnizare a feedback-ului relevant cu privire la calitatea acestor
interaciuni web, n ceea ce privete att coninutul, ct i colaborarea nsi ntre participani, altele
inafara celor create n cadrul proiectului LTfLL.
3.2.4. Pensum (Online Synthesis Advisor) din cadrul LTfLL
n numeroase situaii educaionale, instruiii trebuie s realizeze anumite rapoarte sub form
de text (ex.: rezumate, eseuri, sinteze) despre noiunile nvate. Problemele cu care ei se confrunt
sunt perioadele lungi de timp necesare obinerii feedback-ului i oportunitile limitate ale acestuia
care nu-i stimuleaz pe parcursul crerii rapoartelor, ci i foreaz s le predea finalizate. n timpul
scrierii unui text, este dificil s-i autoevaluezi munca pentru a identifica posibilele greeli.
41
Profesorul poate avea o imagine limitat de ansamblu asupra progresului instruiilor i poate afla
despre anumite probleme specifice prea trziu.
Soluie pentru problemele ridicate anterior, serviciul Pensum vine n sprijinul cursanilor cu
scopul de a le evalua automat eseurile (rezumatele, sintezele), cu scopul de a permite profesorilor s
se concentreze pe activiti de nivel mai nalt (de ghidare individual a instruiilor sau de proiectare
a cursurilor). Pensum analizeaz modul n care instruiii au nteles cursurile, evalund textele
eseurilor instruiilor. Serviciul furnizeaz un feedback rapid cu privire la activitile de scriere ale
cursanilor n curs de desfurare (analiznd relevana exemplelor scrise, coerena sintezelor)
([228]).
Funcionalitile cheie ale serviciului Pensum sunt grupate (vezi fig. 3.7.) ([228]):
n scopul asistrii utilizatorilor:
-
antrenarea sistemului;
n ajutorul cursanilor:
-
dup selectarea domeniului cursului, fiecare cursant poate scrie o nou sintez n
domeniul cursului respectiv sau poate citi/revizui o sintez deja scris;
cursanii pot solicita, apoi, feedback-ul (automat) cu privire la sinteza realizat sau
scrie ntrebri ntr-un notepad (aceste posibiliti sunt valabile permanent i cursantul
poate trece liber de la o obiune la alta);
feedback-ul (automat) este furnizat ntr-o form textual (pe ecran, sub form de
sfaturi) sau grafic (prin sublinierea unor fraze din sintez sau curs). Particularitatea
serviciului n discuie este c, n orice moment, cursantul poate s cear feedback n
legtur cu orice punct de vedere. Un feedback negativ (vizualizat cu o icoan de
culoare roie) este furnizat ntr-unul din urmtoarele trei situaii:
1. incoeren ntre frazele textului;
2. ieirea nafara subiectului;
3. anumite idei din curs care nu se regsesc i n sinteza lui (chiar dac serviciul nu
poate determina dac un anumit subiect din curs este important sau nu);
Pensum nu este doar un instrument prin care se obine un feedback automat. El poate
fi utilizat i pentru a stoca feedback-ul uman (ntr-un notepad) relativ la sintezele
realizate de cursani (acest notepad este o zon special a serviciului n discuie care
nu face obiectul unei analize automate a coninutului sintezelor cursanilor, fiind
folosit doar pentru a aduna comentariile i sugestiile profesorilor n legtur cu
textele scrise de cursani);
42
textul cursurilor, sintezele i coninutul notepad-ului sunt stocate ntr-o baz de date;
Fig. 3.7. Prezentarea sistemului Pensum Online Synthesis Advisor din cadrul proiectului LTfLL
(preluat din [228])
3.2.5. FLSS (The Formal Learning Support System Course Editing Service) din cadrul LTfLL
Profesorii care proiecteaz sau adapteaz cursuri au insuficiente instrumente care s-i ajute
s gseasc care sunt cele mai adecvate materiale de nvare destinate cursanilor.
Sistemul de asistare a nvrii formale (eng. The Formal Learning Support System
FLSS), ca parte a Cadrului semantic comun (eng. Common Semantic Framework CSF), ofer
variate funcionaliti de navigare i cutare. O simpl cutare a unui text returneaz documente cu
un grad variabil de relevan. Cutarea semantic ofer mai multe rezultate relevante, prin utilizarea
a diferite formulri ale conceptului cutat i prin exploatarea relaiilor semantice implicite din text.
Navigarea n ontologia domeniului respectiv ajut profesorul s-i organizeze taxonomic
curriculum-ul. Materialele de nvare n FLSS sunt adnotate automat. Utilizatorii pot cuta aceste
texte cu concepte i contexte adnotate i, astfel, pot compila manual un curriculum, un glosar sau un
test ([228]).
FLSS ofer pe lng un repozitoriu de obiecte de nvare (tutoriale, cursuri, materiale, teste
etc.) i faciliti de navigare i cutare a conceptelor. Un profesor poate ncepe cutarea unor
materiale sau poate s doreasc s gseasc anumite sensuri pentru anumite topice ncepnd cu
navigarea n ontologia domeniului pentru a obine un set adecvat de concepte. Ontologia este
accesibil i ca un ntreg, dar i n pri tematice specifice n acest scop. n ambele cazuri, prin
utilizarea unor cutri variate n principal de text i semantic i prin navigarea n ontologia
43
domeniului, profesorul poate alege materiale pentru a le include n curs. n plus, profesorul poate
obine rezultate bazndu-se i pe similaritatea dintre obiectele de nvare, poate aduga, de
asemenea, documente n repozitoriu. Aceste documente vor fi adnotate automat. Succesiunea de
adnotri cuprinde: segmentarea la nivel de cuvnt, analiz lingvistic NLP, adnotare gramatical a
conceptelor, coreferina relaiilor. Adnotarea documentelor i ontologia pot fi utilizate pentru
cutarea semantic i contextual, prin structurare dup context sau prin realizarea glosarelor i
testelor pentru cursani. Adnotarea coreferenial mbuntete gradul de acoperire i precizia
adnotrii conceptelor, fcnd, astfel, rezultatele cutrilor mai informative i mai la obiect ([228]).
Funcionalitile cheie ale serviciului FLSS sunt grupate pentru (vezi fig. 3.8.) ([228]):
pregtirea utilizrii serviciului:
-
adnotare a documentelor;
cutarea documentelor;
cutare semantic;
niruirea documentelor;
preluarea rezultatelor:
-
Fig. 3.8. Prezentarea The Formal Learning Support System (FLSS) din cadrul proiectului LTfLL
(preluat din [228])
3.2.6. iFLSS (The Informal Learning Support Service to Locate Content and Peers) din cadrul
LTfLL
De obicei, cursanii au probleme atunci cnd sunt nevoii s caute anumite materiale
necesare realizrii unor task-uri de nvare. Mai ales pentru nceptori este dificil de identificat care
dintre resursele gsite sunt de calitate i care nu. n plus, adesea, cursanii lucreaz individual pentru
c nici profesorii, nici colegii nu sunt disponbili tot timpul pentru a le oferi sprijn.
CSF sprijin prile interesate n identificarea, preluarea i schimbul de materiale relevante
de instruire pentru atingerea task-urilor de nvare date. CSF include FLSS (fig. 3.8.) i iFLSS (fig.
3.9.). iFLSS sprijin procesul de descoperire de cunotine prin intermediul unei ontologii
mbogite cu vocabularul comunitii de practic (eng. Community of Practice CoP), precum i
prin recomandarea de materiale avnd la baz coninut, etichete i utilizatori aparinnd CoP-ului.
Comunicarea este facilitat prin utilizarea reelelor sociale, iar comunitile de cursani pot fi create
cu ajutorul recomandrilor furnizate de sistem ([228]).
Funcionalitile cheie ale serviciului iFLSS sunt grupate (vezi fig. 3.9.) ([228]):
definirea subiectului;
45
n slujba cursanilor: pentru a gsi coninut relevant de date pentru sarcina lui de nvare,
mbunindu-i cunotinele din domeniul subiectului cutat, cursantul poate utiliza
ontologia aparinnd CSF. Cursantul poate utiliza funcia de navigare n cadrul acesteia
pentru a prelua documente. nafara acestui mod de cutare bazat pe navigare, cursantul
poate cuta materiale relevante n alte dou moduri:
-
Diferitele posibiliti de cutare sunt valabile, iar cursantul poate s aleag liber una
dintre ele, n funcie de nevoile sale. Ontologia, etichetele, adnotrile i link-urile ctre
resurse sunt toate stocate ntr-un repozitoriu semantic.
Fig. 3.9. Prezentarea The Informal Learning Support System (iFLSS) din cadrul proiectului
LTfLL (preluat din [228])
sunt explicate informaii conceptuale din text. Corespondena respectiv dintre ontologie i text este
realizat cu ajutorul ([228]):
unei ontologii a domeniului din care face parte textul de analizat;
unui lexicon;
unei gramatici de adnotare a conceptelor avnd la baz gramatici regulate prin
intermediul crora se gsesc conceptele lexicalizate din text crora li se asigneaz
concepte apropiate din ontologie.
Dup adnotarea automat, profesorii pot realiza adnotarea manual. Adnotarea realizat pe
aceast cale poate fi utilizat pentru cutarea semantic necesar pentru o utilizare ulterioar a
materialelor de nvare.
Fig. 3.10. Interfaa Annotation Studio din cadrul proiectului LTfLL (preluat din [228])
3.2.8. Short Thread din cadrul LTfLL
Instrumentul numit Short Thread din cadrul LTfLL integreaz serviciul de poziionare
LeaPos i instrumentul de adnotare Annotation Tool n Sistemul de Asisten formal de nvare
FLSS. Acesta faciliteaz lexicalizarea semi-automat a ontologiei LeaPos n interiorul FLSS, n
timp ce LeaPos adaug i stocheaz lexicalizrile care lipsesc, necesare pentru o adnotare
mbuntit i automat a materialelor de nvare i a rspunsurilor. mpreun cu noua abilitate de
a adnota ntrebri cu conceptele descoperite n materiale didactice, aceast nou funcionalitate
permite tutorilor LeaPos s construiasc i s ofere un feedback conceptual formativ prin
intermediul unei interfee intuitive. Experii FLSS n prelucrarea limbajului pot decide care dintre
noile lexalizri sugerate de LeaPos pot fi integrate in ontologie, sprijinind mentenana ontologiei.
47
Fig. 3.11. Interfaa Short Thread din cadrul proiectului LTfLL (preluat din [228])
3.2.9. Long Thread din cadrul LTfLL
Serviciul Long Thread a fost conceput ca o demonstraie a mbuntirii din punct de vedere
pedagogic realizate prin combinarea a patru dintre serviciile LTfLL ntr-un singur mediu de nvare
personal (eng. personal learning environment PLE). Se poate considera un scenariu n care un
student vorbitor de limba englez n domeniul IT ar trebui s rspund la o ntrebare (ex. Ce este
Web 2.0?) Pentru a localiza potenialele resurse de nvare, acesta poate utiliza serviciul iFLSS.
Apoi, el are la ndemn PenSum pentru a scrie sau a mbunti o sintez. Sinteza completat este
ncrcat n Conspect, care ofer o conceptogram i o list de concepte. Dac utilizatorul selecteaz
unul din conceptele, Conspect trece automat conceptul n iFLSS, care furnizeaz ulterior resurse de
nvare din surse cum ar fi YouTube sau BibSonomy. Un tutore poate alege apoi cteva concepte i
s solicite cursanilor s discute despre ei n forumuri sau grupuri de chat. n cele din urm,
PolyCAFe ajut n analizarea acestor discuii.
Fig. 3.12. The Long Thread din cadrul proiectului LTfLL (preluat din [228])
48
CAPITOLUL 4
UTILIZAREA REZOLUIEI ANAFOREI N E-LEARNING
4.1. Rezoluia anaforei
n multe aplicaii de prelucrare a limbajului natural, cum ar fi traducerea automat,
abstractizarea automat, rezumarea automat, dar i instruirea asistat de calculator, inclusiv eLearning, un rol vital l are rezoluia anaforei.
Anafora este un fenomen studiat att de lingvistica computaional, ct si de cea clasic, ce a
atras atenia multor cercettori n ultimii ani. Teorii i formalisme cum ar fi teoria centrelor, teoria
structurilor retorice au inspirat noi cercetri legate de rezoluia automat a anaforei. n plus,
aplicaiile orientate spre cercetare ca abstractizarea automat, extragerea de informaii au identificat,
independent, importana rezoluiei anaforei. Anafora este o relaie de referin, n text, ntre dou
entiti. Cele dou elemente ale textului care particip n anafor se numesc expresii refereniale
([73]).
n literatura de specialitate, anafora a fost definit n mai multe moduri, ca fiind:
relaia dintre un termen (numit "anafor") i un altul (numit "antecedent"), cnd
interpretarea anaforului este ntr-un anumit mod determinat de interpretarea
antecedentului" ([98]);
relaia dintre dou elemente din text care denot acelai obiect" ([138]);
"n majoritatea textelor obiectul aflat n discuie este mentionat de mai multe ori, iar ceea
ce este nou introdus n text este legat ntr-un fel sau altul de ceea ce s-a discutat deja.
Menionrile ulterioare ale unei entiti pot avea sau nu aceeai form de suprafa. Exist
o ntreag clas de expresii numite expresii anaforice sau expresii refereniale utilizate
pentru a indica elementele aflate n corelaie. Ele mai sunt considerate i entiti lexicale."
([44]).
Anafora poate fi de mai multe tipuri, cele mai uzuale fiind:
anafora coreferenial care este cea mai comun, n care entitatea referit n contextul
universului de discurs este aceeai pentru ambii termeni;
anafora funcional, numit i anafora text ([66]) sau anafor sau referin de legtur
([31]), dac anaforul si antecedentul refer entiti distincte, dar aflate ele nsele ntr-o
anumit relaie.
Rezoluia anaforei (eng. Anaphora Resolution AR) este procesul de determinare a
antecedentului unui anafor. Aceasta este o problem provocatoare i necesit o cantitate mare de
cunotine ca suport - de la informaii morfologice, lexicale i sintactice, la informaii semantice,
despre structura discursului i reguli pragmatice.
Rezoluia automat a anaforei presupune urmtoarele etape:
identificarea anaforilor ai cror antecedeni trebuie gsii. n acest scop s-au remarcat
algorimii lui Lappin i Leass ([86]), avnd ca variant algoritmul lui Denbers ([45]),
49
algoritmii lui Paice i Hush ([131]), al lui Evans ([53], [54]), Bean i Riloff ([14]), Vieira
i Poesio ([185]), Muoz ([132]);
gsirea candidailor, domeniu n care s-au remarcat abordrile lineare ale lui Kennedy &
Bogureav ([81]), Mitkov ([115], [116]), Kameyama ([80]), precum i modele de cutare
ierarhice, cum ar fi modelul lui Cristea bazat pe teoria nervurilor ([34], [92]);
selecia antecedentului dintr-o mulime de candidai pe baza factorilor de rezoluie a
anaforei, prin intermediul unor unelte i resurse: dicionare, analizoare morfologice,
marcatoare pentru partea de vorbire. Cele mai utilizate reguli pentru realizarea acestei
etape sunt: acordul n numr i gen, restricii semantice, paralelismul sintactic i
semantic. Unele reguli pot elimina diferite grupuri nominale din mulimea de candidai
posibili (constrngeri bazate pe acordul n gen sau numr) numindu-se reguli
eliminatoare, altele specific faptul c unii candidai au mai multe anse s fie
antecedentul cutat dect ali candidai (reguli bazate pe focus, paralelism) i se numesc
reguli cu scor. A treia categorie de reguli este aceea a regulilor confirmatoare care gsesc
antecedentul. Toate cele trei categorii de reguli utilizate mpreun pot identifica
antecedentul. Aplicarea unei singure reguli (eliminatoare, confirmatoare sau cu scor) nu
conduce la gsirea antecedentului. Regulile interacionaz ntre ele ducnd fie la
mbuntirea, fie la scderea performanei algoritmului. Acest fenomen de dependen nu
a fost nc complet investigat, dar poate juca un rol important n procesul de rezoluie a
anforei. Informaii despre gradul de dependent sunt, n special, utile modelelor
probabilistice i se sper s ajute la mbuntirea rezultatelor.
pe o scar a gradelor (ex. incorect, mediu, bun, foarte bun). TCT, ex. reelele bayesiane,
pot fi aplicate n acest caz ([87]);
tehnici de extragere a informaiei (eng. Information Extraction IE) ([33]): acestea sunt
utilizate de sistemele care cer ca informaia sub form de text s fie structurat, cum ar fi
dependenele ntre concepte, aa cum este n sistemul Automark ([112]);
nsumare (eng. clustering): gruparea eseurilor care au modele similare de cuvinte pentru a
forma un cluster cu acelai scor. Aceast abordare a fost urmat de Sistemul Inteligent de
Marcarea Eseurilor realizat de Ming ([111]);
compararea reelelor semantice: tehnic recent introdus de Lutticke n anul 2005 ([99])
care const n compararea reelei semantice obinut din rspunsul studentului cu reeaua
semantic a modelului dat de instructor. Aceast tehnic a fost utilizat n sistemul MRW
([99], [203]);
abordri hibride: acestea combin tehnicile anterioare pentru a mbunti rezultatele
obinute. De exemplu, E-rater ([22]) i Atenea ([3]) utilizeaz tehnici statistice i tehnici
NLP.
Chiar dac tehnicile anterioare sunt att de diferite, ideea general utilizat n toate aceste
sisteme este aceeai: se compar rspunsul studentului (sau rspunsul candidat) cu un rspuns ideal
al instructorului (sau un rspuns de referin). Cel mai apropiat rspuns obine scorul cel mai mare.
Printre tehnicile NLP folosite pentru a mbunti evaluarea automat a rspunsurilor
ntrebrilor deschise se gsete i AR. Acest fenomen, constnd n referirea la o entitate menionat
nainte, este foarte comun n limbajul scris ([184]). Mai mult, are aplicabiliti i n alte domenii
([35]).
Referindu-ne la sistemele de CAA prin evaluarea rspunsurilor deschise sub form de text
care utilizeaz AR, acestea compar rspunsul dat de student cu rspunsurile referin date de
profesori. Prin urmare, sistemele nu sunt capabile s evalueze ca fiind corect un rspuns dac
cuvintele sau expresiile utilizate de student i de profesor sunt diferite. Aceast problem este
rezolvat de sisteme n dou moduri ([135]):
prin reducerea paradigmelor att din textele de referin date de profesor, ct i din textul
rspunsului dat de student; de exemplu, prin eliminarea tuturor pronumelor i a anumitor
NP definite, utiliznd AR;
prin mrirea mulimilor de referine cu paradigme alternative; spre deosebire de prima
metod, aceasta se aplic doar rspunsurilor date de profesor; acest lucru poate fi realizat
manual cernd profesorilor s scrie rspunsuri alternative pentru aceeai ntrebare sau
automat prin mbogirea textului cu sinonimele cuvintelor utilizate, spre exemplu, sau
prin utilizarea AR.
n categoria sistemelor CAA de evaluare a rspunsurilor scurte date de studeni, n care este
utilizat AR, se ncadreaz i sistemul Atenea ([3]). Testat pentru limbile englez i spaniol i uor
adaptabil altor limbi, acesta proceseaz rspunsurile studenilor i ale profesorului utiliznd tehnici
NLP i instrumente wraetlic ([2]):
51
Indiferent de limb, pentru a putea fi utilizat n RARE, componentele de baz ale oricrui
model AR sunt ([135]):
forme diferite, este esenial gsirea relaiilor anaforice. Doar un numr limitat de sisteme de
traducere automat reuesc s traduc cu succes un discurs, nu doar propoziii izolate, pentru c nu
rezolv problema anforelor. Rezultate ncurajatoare legate de rezoluia anaforei pentru traducerea
automat au fost obinute n cadrul unor proiecte conduse de Wada n anul 1990 ([187]), Leass &
Schwall n 1991 ([89], [90]), Nakaiawa n 1994 ([120]), Saggion & Carvalho n 1994 ([147]),
Mitkov n 1997 ([113], [114]), Geldbach n 1999 ([59]).
Relaia de coreferin are un rol important i pentru extragerea de informaii, important i
ea n e-Learning. n 1999, Al-Kofani et al. au realizat un sistem ce folosete rezoluia anaforei
pentru extragerea i prelucrarea de informaii ([4]).
n domeniul sumarizrii textelor, de asemenea cu aplicaii n e-Learning, tehnicile de
extragere a propoziiilor mai importante au rezultate mai bune dac sunt folosite i relaii
anaforice. Lanurile coreferentiale i coreferina au fost folosite pentru abstactizare. Baldwin &
Morton n 1998 ([11], [12]), Azzam, Humphreys & Gaizauskas n 1999 ([7]) descriu tehnici de
sumarizare a textelor folosind lanurile corefereniale.
Gsirea automat a rspunsurilor la ntrebri, util n instruirea asistat de calculator, este
ajutat mult de gsirea coreferinelor. n 1999, Morton ([118]) a reuit s gseasc rspunsuri la
ntrebri prin stabilirea de legturi corefereniale ntre entitile i evenimentele din ntrebri i cele
din document.
53
CAPITOLUL 5
ALTE PROIECTE SEMNIFICATIVE
n ultimii ani, datorit dezvoltrii NLP, printre numeroasele aplicaii ale acestuia se regsesc
i cele din cadrul e-Learning, cu precdere din e-evaluare i nvarea colaborativ. n cele ce
urmeaz sunt prezentate aspecte ale utilizrii NLP n cadrul CAA, urmate de o trecere n revist a
celor mai reprezentative sisteme CAA de evaluare a cunotinelor studenilor prin intermediul
notrii rspunsurilor acestora sub form de text utiliznd NLP. n continuare, vor fi prezentate o
serie de sisteme CSCL de analiz a interaciunilor la nivelul conversaiilor de tip chat sau forum
prin utilizarea tehnicilor NLP, altele dect cele prezentate n capitolul 3, mpreun cu trsturile lor
caracteristice.
5.1. Sisteme CAA de evaluare a rspunsurilor sub form de text ale studenilor,
utiliznd NLP
Muli cercettori consider c evaluarea joac un rol central n procesul educaional. n
ultimii ani, interesul n dezvoltarea i utilizarea sistemelor de evaluare bazate pe calculator (eng.
Computer-based Assessment Systems CbAS) a crescut exponenial datorit creterii numrului de
studeni i a posibilitilor oferite de omniprezentul e-Learning asincon i sincron ([181]).
Importana necesitii NLP n dezvoltarea majoritii acestor sisteme se bazeaz pe utilizarea
ntrebrilor numite ntrebri tip-obiectiv care pot fi de mai multe feluri: alegere multipl, rspunsuri
multiple, rspuns scurt, selecie/asociaie, punct fierbinte i identificarea vizual ([180]). Cei mai
muli cercettori n domeniu sunt de acord cu faptul c sunt multe aspecte complexe dificil de
msurat cu ajutorul acestor ntrebri tip-obiectiv, i anume: abilitatea de a memora, de a organiza i
integra ideile, de a se exprima n scris, de a interpreta i aplica informaii, abiliti care pentru a fi
evaluate necesit structurarea unui rspuns care nu se ncadreaz n rspunsurile care pot fi date la
ntrebrile tip-obiectiv ([62]). Astfel, pentru msurarea unor astfel de abiliti, corespunznd
nivelurilor mai nalte ale taxonomiei lui Bloom ([19]), rspunsurile sub form de eseu servesc
pentru atingerea acestui scop.
Una dintre dificultile ntlnite n notarea eseurilor este reprezentat de subiectivitatea care
poate intervine n evaluarea acestora. Muli cercettori susin c natura subiectiv a evalurii
eseurilor conduce la variaii n notele acordate de diferii evaluatori umani, lucru perceput de
studeni ca o mare surs de nedreptate. n plus, notarea eseurilor acestora este o activitate
consumatoare de timp. Conform lui Mason ([103]), aproximativ 30% din timpul profesorilor din
Marea Britanie este dedicat evalurii cunotinelor studenilor. Aceste probleme pot fi parial
eliminate prin adoptarea instrumentelor de evaluare automat a eseurilor, care este posibil datorit
progreselor din domeniul NLP, nvare automat i reele neuronale din ultimii ani. Un astfel de
sistem ar trebui s fie cel puin consecvent n modul cum noteaz eseurile. Dezavantajul c aceste
sisteme cost scump este eliminat prin economia de timp care o ofer ([181]). n plus, potrivit lui
Hearst ([69]), utiliznd calculatoarele crete capacitatea evaluatorului de a nelege caracteristicile
textuale i abilitile cognitive ale studentului necesare n realizarea textelor scrise, fapt cu beneficii
pe termen lung pentru comunitatea educaional.
54
e-Learning, CAA, NLP i modelarea studentului sunt domenii aflate ntr-o strns legtur,
ilustrat n figura 5.1., pentru c:
CAA este domeniul care studiaz cum este efectiv utilizat calculatorul pentru evaluarea
modului n care studentul a nvat;
Modelarea studentului este domeniul care studiaz cum pot fi modelai studenii pentru
ca informaiile coninute n aceste modele s poat fi utilizate ca feedback pentru
profesori, studeni sau, intern, de ctre sistem;
Tehnicile educaionale adaptive hypermedia este domeniul care studiaz tehnicile care
trebuiesc luate n considerare pentru fiecare model de student i modul cum trebuie
acionat n consecin;
NLP este domeniul care studiaz cum se proceseaz automat textul, respectiv n cazul
nostru tehnicile prin care se evalueaz automat rspunsurile sub form de text ale
studenilor.
Fig. 5.1. Relaia dintre CAA, modelarea studentului, tehnicile adaptive hypermedia i NLP
(preluat din [136])
Fig. 5.2. Evoluia n timp a sistemelor de CAA prin evaluarea rspunsurilor sub form de text ale
studenilor (preluat din [136])
55
Modulul de evaluare primar, care pentru fiecare paragraf din textul studentului,
determin poriunea cea mai similar cu cursul, astfel nct studentului i este
furnizat o vedere primar asupra eseului;
Automated Text Marker (ATM) ([25]) a fost creat n anul 2001 de Callear, Jerrams-Smith
i Soh n Universitatea Portsmouth din Marea Britanie. Ei consider c att coninutul ct
56
i forma trebuie luate n consideraie, astfel nct sistemul lor furnizeaz dou note
independente, una pentru fiecare aspect i las la latitudinea profesorului s le combine
pentru a da nota final.
n evaluarea eseurilor studenilor, ATM se bazeaz pe tehnici IE. Arhitectura sistemului
este prezentat n figura 5.3. Principalele module din ATM sunt analizorul sintactic i
analizorul semantic.
The Bayesian Essay Test Scoring sYstem (BETSY) ([144]) a fost dezvoltat ntre 2001 i
2003 de Rudner i Liang la College Park din cadrul Universitii din Maryland. Scopul
sistemului este s clasifice eseurile utiliznd o scal nominal cu patru valori (ex.: extins,
esenial, parial, nesatisfctor) lund n consideraie i forma i coninutul rspunsurilor.
BETSY se bazeaz pe reelele naive Bayesian-e. Utilizatorului i se d posibilitatea s
aleag ntre dou modele: Multivariate Bernouilli Model (MBM) i Bernouilli Model
(BM). O comparaie ntre ele este dat n [104], unde se sugereaz c MBM are o
acuratee mai mare dac este nsoit de un vocabular mare.
C-rater ([23], [194]) i E-rater ([22], [194]) au fost dezvoltate de Organizaia American
Educational Testing Service (ETS). Scopul principal al lui C-rater este s disting dac
rspunsul studentului este corect sau nu, n funie de coninutul lui, iar al lui E-rater s
furnizeze un scor holistic bazat pe organizarea, structura i coninutul eseului. Produs
iniial pentru notarea testelor GMAT (Graduate Management Admission Test) necesare
pentru admiterea la programele de masterat de ctre Educational Testing Service (ETS)
i inaugurat n 1999, E-rater este un program pentru notarea automat a eseurilor
comparnd eseurile care trebuie notate cu un set de nvare ce conine sute de eseuri
scrise corect, fiecare set corespunznd unei ntrebri. Acesta are ns dezavantajele c nu
poate s decid dac textul este scris coerent sau are vreun sens, nu face conexiuni logice
i nu aduce argumente ([133]).
C-rater este foarte asemntor cu E-rater. Principalele diferene sunt ([136]):
-
E-rater furnizeaz un scor holistic, n timp ce C-rater doar identific dac rspunsul
conine informaii specifice necesare ca acesta s fie corect;
dac E-rater este parial bazat pe structura retoric a unui eseu, C-rater este mai mult
bazat pe structura predicat-argument;
CarmelTC ([142]) este un modul de evaluare a textului din cadrul sistemului mediu de
nvare virtual (eng. Virtual Learning Environment) numit Carmel. CarmelTC a fost
dezvoltat la Universitatea din Pittsburgh de ctre Ros, Roque, Bhembe i Vanlehn. Pe de
o parte, modulul furnizeaz nota studentului, iar pe de alt parte, independent de aceasta,
el poate fi folosit pentru a arta care sunt caracteristicile corecte din rspunsul
studentului.
CarmelTC utilizeaz o combinaie de metode de clasificare de nvare automat folosind
caracteristicile extrase din analiza lingvistic a textului a lui Carmel i clasificarea
Rainbow Naive Bayes ([104]).
58
The Essay Grading and Analysis Logic (EGAL) ([42], [196]) este un sistem dezvoltat n
anul 2004 de un grup de studeni americani. Este un sistem open source bazat pe patru
crierii: detecia gibberish, care poate fi semantic sau sintactic, relevana la ntrebare,
identificarea faptelor i acurateea lor. Ele pot fi utilizate ca nite module independente
sau separat, dar, conform autorilor, sunt mult mai eficiente dac sunt utilizate mpreun.
The Intelligent Essay Assessor (IEA) ([56], [199]) a fost creat n anul 1997 de Landauer,
Foltz i Laham. Iniial a fost dezvoltat ca un produs academic, dar civa ani mai trziu
autorii au fondat propria lor companie numit Knowledge Analysis Technology. Ei
pretend c IEA este o aplicaie bazat pe web care n numai 20 de secunde furnizeaz
feedback-ul studentului. Scopul principal al acesteia este s evalueze cunotinele
acoperite n eseu, n ce privete forma, sintaxa sau structura acestuia ([56], [85]).
IEA are la baz LSA i conine trei module principale ([30]):
-
Modulul de coninut, care este cel mai important modul; utilizeaz LSA pentru a
calcula scorul ca medie ponderal a scorurilor pentru cele mai similare k eseuri i
scorul de relevan al domeniului ca lungimea vectorului eseului;
Modulul mecanic este cel care analizeaz i noteaz punctuaia i ortografia eseului;
Modulul style este care analizeaz forma i coerena eseului utiliznd LSA.
n conformitate cu ceea ce afirm autorii lui, IEA poate fi utilizat n multe aplicaii
diferite n educaie: de la simpla corectare, la ajutorul pe care l d profesorilor n
descoperirea plagiaturilor sau la evaluarea sumativ sau formativ a eseurilor.
The Intelligent Essay Marking System (IEMS) ([111]) a fost prezentat de Ming, Mikhailov
i Kuan de la Politehnica NGEE ANN din Singapore, n 2000. Scopul acestuia este de a
evalua att sumativ, ct i formativ eseurile studenilor. IEMS se bazeaz pe Pattern
Indexing Neural Network, Indextron pentru recunoaterea modelelor i, n acest caz,
modelele sunt cuvinte din texte.
IntelliMetric ([182], [200]) a fost creat de compania Vantage Learning, dup ce a cheltuit
mai mult de trei milioane de dolari pentru dezvoltarea lui. Este un sistem comercial care
ncearc s ntreac notarea uman prin evaluarea coninutului, formei, organizrii i
conveniile din fiecare rspuns utilind o scar de la 1 la 4.
IntelliMetric are nevoie de o faz iniial de instruire urmat de o evaluare manual a
rspunsurilor date cu scopul de a deduce categoria unde va fi ncadrat n cadrul sistemului
automat. Dintr-o sut de posibiliti iniiale pe care IntelliMetric poate s le ia n calcul, el
alege cel mai apropiat subiect fa de cel aflat n studiu. Deoarece nu este un produs
academic, ci unul comercial, exist puine informaii despre tehnicile utilizate n
dezvoltarea lui. Totui, Vantage Learning Technologies a declarat c IntelliMetric are la
baz alte sisteme aflate n proprietatea lor, aa numitele CogniSearch i Quantum
ReasoningTechnologies i c este un sistem inteligent, deoarece modul n care noteaz
rspunsurile sub form de text ale studenilor este unul inteligent.
The Japenese Essay Scoring System (Jess) ([76], [201]) este primul sistem de evaluare
automat a eseurilor. El a fost creat de National Research Center din Universitatea
Entrance Exam din Japonia. Sistemul evalueaz trei caracteristici ele eseurilor: retorica
(ex. varietatea sintactic), organizarea (ex. modul cum ideile sunt prezentate i relatate n
eseuri) i coninutul (ex. ct de relevant este informaia prezentat i ct de clar i
relevant este vocabularul utilizat).
59
Pentru evaluarea retoricii, Jess msoar un set de itemi, cum ar fi: uurina de a fi citit,
diversitatea vocabularului, procentajul cuvintelor lungi sau frazele aparinnd diatezei
pasive. Pentru organizare, el ncearc s determine structura logic a documentului prin
detectarea anumitor expresii conjunctive. Pentru coninut, acesta utilizeaz LSA.
Dezvoltat la Universitatea din Massachusetts din USA, sistemul lui Larkey a fost creat
pentru a evalua eseuri, avnd la baz tehnici de categorizarea textelor. Iniial, el a fost
produs pentru a clasifica eseurile studenilor universitii n dou categorii, bune sau
rele, lund n consideraie coninutul i forma acestora ([87], [88]).
Procedura de evaluare poate fi una dintre urmtoarele sau combinaie dintre ele:
-
Gsirea a primelor k cele mai similare eseuri de referin: pentru care este utilizat
sistemul Inquery ([24]);
Conform autorilor lui, sistemul nu este restricionat la nici un domeniu i scopul lui nu
este s nlocuiasc profesorul, ci sa-l asiste. De fapt, instructorul este foarte important i
nu are cum s lipseasc, deoarece el este cel care introduce reeaua semantic de
cunotine utiliznd modulul de dezvoltare al sistemului. De asemenea, instructorul este
cel care specific cum se va face evaluarea, iar n funcie de acestea, sistemul poate s
decid care elemente din reea ar trebui s fie prezente n n rspunsul studentului.
Sistemul poate s genereze, de asemenea, posibile ntrebri pentru student.
nafara feedback-ului furnizat ctre studeni, sistemul poate s prezinte i instructorului
un feedback. Sistemul poate furniza instructorului data cnd studentul a ncrcat eseul,
textul chiar dac a fost arhivat, preocupri sau obiecii n legtur cu nota dat de
SAGrader.
The Schema Extract Analyse and Report (SEAR) este un sistem prezentat de Robert
Gordon University din Marea Britanie pentru a evalua coninutul i forma eseurilor
studenilor, utiliznd tehnici IE ([28], [29], [207]).
drept noduri replicile, iar replicile ce refer alte replici anterioare fiind noduri-fii ale
acestora.
Vizualizarea temporar (eng. FlowView), prin care conversaia este redat secvenial, n
timp, utilizndu-se blocuri corespunztoare fiecrei replici, blocuri avnd lungimea
proporional cu durata scrierii lor i poziionarea corespunznd cu momentul nceperii
tastrii rspunsului.
Polyphony conine mai multe module, toate dezvoltate n cadrul Facultii de Automatic i
Calculatoare din Universitatea Politehnic Bucureti, care genereaz diferite jurnale pe care apoi le
analizeaz, i anume ([58]):
Sistem de recomandare: genereaz recomandri specifice pornind de la subiectul discuiei
i analiznd ultimele replici introduse. Acest modul este format din:
-
un parser;
transcriptul XML-ul exportat din sistemul Polyphony ([126]) sau ConcertChat ([71], [38]).
n analiza contribuiei la chat n cadrul ASAP, au fost definii, calculai i utilizai o serie de
factori, n scopul evalurii lor, i anume ([38]):
Numrul de caractere scrise de participant, factor relevant de multe ori n descoperirea
persoanei cele mai competente;
Numrul de caractere per intervenie este un alt factor care influeneaz nota final
deoarece determin eficiena medie a interveniei, unde eficiena medie este definit de
ctre dezvoltatorii sistemului ca fiind o balan ntre lungimea interveniei i consistena
informaiilor pe care le cuprinde;
Gradul de centralitate (eng. degree centrality), ca i anterioarele dou, un alt factor care
inflieneaz din punct de vedere cantitativ analiza chatului, se calculeaz pornind de la
transcriptul chatului, dup care se genereaz graful replicilor, avnd ca noduri
participanii i arce replicile interschimbate. Aceast informaie este necesar n cadrul
analizelor reelei i mai ales a relaiilor sociale din cadrul ei;
Centralitate. Conform teoriei grafurilor exist cinci tipuri de centraliti:
-
apropierea (eng. closeness), msur a centralitii unui nod n graf, este invers
proporional cu distana minim dintre nodul curent i celelalte noduri din graf;
centralitatea grafului este definit ca fiind egal cu inversul distanei maxime dintre
nodul curent i celelalte noduri ale grafului, distan calculat cu ajutorul
algoritmului Floyd-Warshall ([21], [32]);
factorul de stres, caz n care centralitatea este egal cu suma tuturor drumurilor
minime care trec prin nodul curent;
valori proprii, factor care ataeaz note relative tuturor nodurilor din reea, pornind
de la ideea c o legtur cu un nod de rang nalt este mai important dect mai multe
legturi cu noduri de rang mai mic.
Rangul unui utilizator este calculat folosind algoritmul lui Page Rank ([130]) (care st la
baza sistemului Google), matricea cu numrul de intervenii schimbate ntre participani
i notele acestora, printr-o metod iterativ. Cu ct un utilizator este mai cutat, nseamn
c informaiile provenite de la el sunt mai valoroase pentru ceilali participani, deci
rangul lui va fi crescut pe msur ce i sunt adresate mai multe replici de la persoane,
preferabil, ct mai importante;
Nota interveniei poate fi empiric sau final. Notei empiric a interveniei se calculeaz
lundu-se n considerare urmtorii factori:
-
lungimea replicii;
numrul cuvintelor cheie, care rmn din replic dup corectarea cuvintelor scrise
greit (eng. spellcheck) pentru care s-a utilizat biblioteca Jazzy ([243], [244]),
extragerea rdcinii (eng. stemming) pentru care s-a utilizat Snowball ([251]) i
eliminarea stop words, utilizndu-se o list de cuvinte irelevante;
65
Nota final a replicii se calculeaz cu ajutorul notei empirice a replicii i a unui coeficient
care este determinat n funcie de tipul replicii curente i al replicii de care aceasta este
legat. n evaluarea unei replici, n cazul analizei de tip semantic a reelei sociale se va
realiza o filtrare a replicilor din punctul de vedere al nrudirii termenilor folosii cu o list
de cuvinte introduse de utilizator sau cu o list de cuvinte cheie ale chat-ului determinat
statistic. Pentru a determina aceste cuvinte cheie se creeaz domenii de cuvinte inrudite,
folosind relaii de tip sinonimie din WordNet ([211]) sau tehnica Latent Semantic
Analysis (LSA) utilizat n NLP ([252]), iar apoi, pe baza frecvenei cuvintelor, a poziiei
n replic i a importanei totale a replicii se obine lista de candidai ordonai dup aceste
criterii.
LSA([252]) este o tehnic utilizat n procesarea limbajului natural, n particular n
semantica vectorial a analizei relaiilor dintre un set de documente i termenii pe care i
conin, producnd o serie de concepte n relaie cu documentele i termenii coninui de
fiecare. Aceast tehnic folosete o matrice rar care conine numrul de apariii ale
termenului n diversele documente, avnd pe coloane documentele care pot fi cutate, iar
pe linii termenii (de obicei rdcina cuvintelor cheie dup care se face cutarea) coninui
n aceste documente. LSA transform matricea de apariii n relaii ntre termini i
concepte, respectiv ntre concepte i documente, modelnd astfel indirect corespondena
dintre termini i documente prin intermediul conceptelor. LSA este utilizat n cadrul
procesului de evaluare n vederea estimrii corelrii cu ntregul chat i a relevanei
fiecrei replici relative la domeniul luat n considerare ([38]).
Din punct de vedere computaional, aceast transformare a fost obinut n urma aplicrii
transformrii n valori proprii singulare (Singular-Value Decomposition SVD)
asemntoare cu metoda celor mai mici ptrate ([39]). Pentru mbuntirea rezultatelor
obinute prin intermediul LSA, matricea iniial a fost ponderat folosind Tf-idf (frecvena
termenilor invers proporional cu frecvena documentelor, eng. term frequency inverse
document frequency), proporional cu frecvena termenului n colecia de documente i
invers proporional cu numrul de documente n care apare (astfel termenii rari avnd
ponderi mai mari, iar cei care apar n foarte multe documente ponderi mai mici ([102]).
LSA transform, prin metode algebrice, aceast matrice n relaii ntre termeni i
documente precum i n grupuri de cuvinte nrudite (aa numitele spaii semantice).
Reuind s determine automat competena unei personane care particip la un chat, ASAP
este o interfa foarte util n examinarea interaciunilor om-calculator folosind sisteme de chat, nu
numai n aplicaiile educaionale, ci i n, de exemplu, proiectare sau rezolvare de probleme
colaborative ([38]).
Concluzii
CONCLUZII
n ultimii ani, pe fondul schimbrilor rapide i progresului tehnologic nregistrat, precum i
pe fondul tendinei de globalizare a educaiei universitare i eliminare a granielor dintre stundeni,
s-au deschis pentru practica educaional noi perspective. Astfel, n conjunctura omniprezenei webului i a creterii numrului de tehnici, resurse i instrumente NLP, integrarea i utilizarea procesrii
limbajului natural n dezvoltarea aplicaiilor aparinnd e-Learning s-a impus ca o consecin
normal.
Aplicaiile lingvisticii computaionale, inclusiv n e-Learning, nu pot avea performane
competitive n absena unor resurse lingvistice de foarte bun calitate. Aceste aplicaii reprezint, de
cele mai multe ori, o combinaie de module separate, fiecare cu propriile cerine informaionale. De
aceea, datorit utilitii acestora, inclusiv n e-Learning, n primul capitol al prezentei lucrri, vor fi
trecute n revist cteva dintre cele mai reprezentative resurse ale lingvisticii computaionale, i
anume: dicionarele, tezaurele, ontologiile lexicale, corpusurile, precum i aspecte generale ale lor.
Avnd n vedere marele volum de coninut static i dinamic dedicat satisfacerii cerinelor
impuse de e-Learning, dezideratul major pentru extinderea utilizrii acestui coninut este de a
perfeciona/mbunti eficacitatea regsirii i accesibilitii acestuia prin folosirea sistemelor de
management al nvrii. Obiectivul proiectului Tehnologii Lingvistice pentru e-Learning (eng.
Language Technology for eLearning LT4eL) ([235]), prezentat pe scurt n capitolul al doilea, a
fost abordarea i rezolvarea acestei probleme prin dezvoltarea i utilizarea de funcionaliti bazate
pe tehnologii lingvistice i prin integrarea coninutului semantic care mbuntesc managementul,
distribuia i regsirea materialului de nvare ([235]).
nvarea mbuntit cu ajutorul tehnologiei (eng. Technology-enhanced learning TEL)
devine din ce n ce mai rspndit n lumea educaiei. Astfel, se impune un numr nsemnat de
schimbri de ctre tehnologia nsi, cum ar fi accesul la instrumentele necesare, utilizarea i
optimizarea utilizrii acestora, precum i datorit problemelor de interoperabilitate, n cazul cnd se
utilizeaz diferite instrumente i dispozitive. Cu toate acestea, instrumentele produse cu ajutorul
acestor tehnologii - i ne referim aici n principal la cele de coninut - au devenit o adevrat
provocare. Cantitile imense de coninut digital produs de participanii la procesul educaional
solicit noi strategii inovatoare i modaliti diverse de a le manipula, n scopul de controla volumul
de munc, att pentru tutori, ct i pentru cursani, concomitent cu mbuntirea nelegerii a ceea
ce a fost produs i contribuie la atingerea obiectivelor de nvare ([228]).
Gsirea unor noi modaliti inovatoare pentru a aborda aceast nou provocare este una
dintre ambiiile proiectului Tehnologii lingvistice pentru nvare continu (eng. Language
Technologies for Lifelong Learning LTfLL) ([228]), prezentat n capitolul trei. Serviciile
dezvoltate n cadrul LTfLL, prezentate n acelai capitol, utilizeaz tehnologia pentru nelegerea i
analizarea datelor disponibile, i anume eseurile i blog-urile instruiilor, conversaiile acestora pe
platforme chat i forumuri. Scopul acestora este de a sprijini instructorii n procesarea acestei mari
cantiti de date, ntr-un mod ct mai rapid i mai performant, prin furnizarea unor aplicaii
prietenoase n format widget (aplicaie mic care poate fi plasat forte uor ntr-o pagin web,
urmnd a fi rulat de browser-ul vizitatorului care acceseaz pagina). ([228]).
n multe aplicaii de prelucrare a limbajului natural, cum ar fi traducerea automat,
abstractizarea automat, rezumarea automat, dar i instruirea asistat de calculator, inclusiv eLearning, un rol vital l are rezoluia anaforei (eng. Anaphora Resolution AR). n ceea ce privete
68
Concluzii
69
Bibliografie
BIBLIOGRAFIE
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
Adams, P. H., Martell, C. H., Topic detection and extraction in chat. In Proceedings of
the 2008 IEEE International Conference on Semantic Computing, pp. 581-588, 2008.
Alfonseca, E., Wraetlic user guide version 1.0, 2003.
Alfonseca, E., Prez, D., Automatic assessment of short questions with a bleu-inspired
algorithm and shallow nlp, In Advances in Natural Language Processing, volume 3230 of
Lecture Notes in Computer Science, pages 2535. Springer Verlag, 2004.
Al-Kofani, K., Grom, B. and Jackson, P., Anaphora resolution in the extraction of
treatment history language from court opinions by partial parsing, Proceedings of the
17th International Conference on Artificial Intelligence and Law, 138146. Oslo, Norway,
1999.
Anderson, J.R., Cognitive psychology and its implications, New York, Freeman, 1985.
Appelt, D., Israel, D., Introduction to Information Extraction technology, IJCAI 99
Tutorial, 1999.
Azzam, S., Humphreys K., Gaizauskas R., Using Coreference Chains for Text
Summarization, In Proceedings of the ACL99 Workshop on Coreference and its
Applications, Baltimore, USA, June, 1999.
Bakhtin, M., The Dialogic Imagination: Four Essays, University of Texas Press, Austin,
1981.
Bakhtin, M.M., Spech Genres and Other Late Essays, University of Texas, Austin, 1986.
Bakhtin, M.M., Problems of Dostoevskys Poetics, University of Minnesota Press,
Minneapolis, 1993.
Baldwin, B., Morton, T., Bagga, A., Baldridge, J., Chandraseker, R., Dimitriadis, A.,
Snyder, K. and Wolska, M., Description of the UPENN CAMP system as used for
coreference, Proceedings MUC-7. Washington, DC, 1998.
Baldwin, B., Morton, T., Dynamic coreference-based summarization, Proceedings of the
Third International Conference on Empirical Methods in Natural Language Processing
(EMNLP-3). 1-6.Granada, Spain, 1998.
Barbu Mititelu, V., Ceauu, A., Ion, R., Irimia, E., tefnescu, D., Tufi, D., Resurse
lingvistice pentru un sistem de ntrebare-rspuns pentru limba romn, Revista Romn
de Interaciune Om-Calculator, Vol. 2, Nr.1, Editura Matrix Rom Bucureti, Editori S.C.
Buruga, Costin Pribeanu, 2009.
Bean D., Riloff, E., Corpus-Based Identification of Non-Anaphoric Noun Phrases. In
Proceedings of the 37th Annual Meeting of the Association for Computational
Linguistics, pages 373 380, 1999.
Bejinariu, S., Apopei, V., Luca, R., Botoineanu, L., Olariu, F., Atlas lingvistic electronic,
Lucrrile atelierului Resurse lingvistice i instrumente pentru prelucrarea limbii romne,
Iai, Editori: Pistol, I.C., Cristea, D., Tufi, D., Editura Universitii Alexandru Ioan
Cuza, 2007.
Bentivogli, L., Forner, P., Magnini, B., Pianta, E., Revising WordNet Domains Hierarchy:
Semantics, Coverage, and Balancing. Proceedings of COLING 2004 Workshop on
"Multilingual Linguistic Resources", Geneva, Switzerland, 101-108, 2004.
Berge, Z., Collins, M., Computer Conferencing and Online Education, The Arachnet
Electronic Journal on Virtual Culture, 1(3), 1993.
Berlanga, A. J., Rosmalen, P. V., Trausan-Matu, S., Monachesi, P., & Burek, G., The
Language Technologies for Lifelong Learning Project. In D. S. I. Aedo., N. Chen,
Kinshuk, Proceedings of the 9th IEEE International Conference on Advanced Learning
Technologies, Riga, pp. 624-625, 2009.
Bloom, B.S., Taxonomy of educational objectives: The classification of educational
Bibliografie
goals, HandbookI, cognitive domain. New York ; Toronto: Longmans, Green, 1956.
[20] Bobicev, V., Maxim, V., Prodan, T., Burciu, N., Anghelu, V., Emoii n cuvinte:
elaborarea resursei multilingve, Lucrrile atelierului Resurse lingvistice i instrumente
pentru prelucrarea limbii romne, Iai, Editori: Iftene, A., Teodorescu, H.-N., Cristea, D.,
Tufi, D., Editura Universitii Alexandru Ioan Cuza, 2010.
[21] Brandes, U., A Faster Algorithm for Betweenness Centrality, Journal of Mathematical
Sociology 25(2):163-177, 2001.
[22] Burstein, J., Kukich, K., Wolff, S., Lu, C., Chodorow, M., Bradenharder, L., Dee Harris,
M., Automated scoring using a hybrid feature identification technique, In Proceedings of
the Annual Meeting of the Association of Computational Linguistics, 1998.
[23] Burstein, J., Leacock, C., Swartz, R., Automated evaluation of essays and short answers.
In Proceedings of the International CAA Conference, 2001.
[24] Callan, J.P., Croft, W.B., Broglio, J., TREC and TIPSTER experiments with INQUERY,
Information Processing and Management, 1995.
[25] Callear, D., Jerrams-Smith, J., Soh, V., CAA of Short Non-MCQ answers, In Proccedings
of the 5th International Computer Assissted Assessment conference, 2001.
[26] Carletta, J., Assessing agreement on classification tasks: The kappa statistic.
Computational Linguistics, 22, 1996.
[27] Cpn, C., Preda, A., Preda, V., Despre formatul electronic al DILR, Lucrrile
atelierului Resurse lingvistice i instrumente pentru prelucrarea limbii romne, Iai,
Editori: Pistol, I.C., Cristea, D., Tufi, D., Editura Universitii Alexandru Ioan Cuza,
2007.
[28] Christie, J.R., Automated essay marking - for both style and content, In Proceedings of
the 3rd International Computer Assisted Assessment Conference, 1999.
[29] Christie, J.R., Automated essay marking for content - does it work?, In Proceedings of the
7th International Computer Assisted Assessment Conference, 2003.
[30] Chung, G.K., ONeill, H.F., Methodological approaches to online scoring of essays,
Technical Report 461, UCLA, National Center for Research on Evaluation, Student
Standards, and Testing, 1997.
[31] Clark, H.H., Haviland, S.E., Psycological processes as linguistic explanation, In Cohen,
D., (Ed.), Explaining Linguistic Phenomena, Washington, Hemisphere Publishing Corp.,
1974.
[32] Cormen, T., Leiserson, C., Rivest, R., Stein, C., Introduction to Algorithms, MIT Press,
2001.
[33] Cowie, J., Lehnert, W.G., Information Extraction, Communications of the ACM, 39(1):
8091, 1996.
[34] Cristea, D., Ide, N., Marcu, D., Tablan, M.-V., Discourse Structure and Co-Reference: An
Empirical Study, in Proceedings of the 18th International Conference on Computational
Linguistics COLING'2000, Luxembourg, July 31-August 4, 2000.
[35] Cristea, D., Postolache, O., Pistol, I., Summarisation through discourse parsing, In
Proceedings of CICLING 2005, 2005.
[36] Cristea, D., Rschip, M., Forscu, C., Haja, G., Florescu, C., Aldea, B., Dnil, E., The
Digital Form of the Dictionary of the Romanian Language. In C. Burileanu, H.N.
Teodorescu (eds.), Proceedings of the 4th International IEEE Conference SpeD 2007,
Advances in Spoken Language Technology, Iai, 10-12 Mai 2007, Editura Academiei
Romne, 2007.
[37] Dasclu, M., Chioasc, E.V., Trusan-Matu, S., ASAP - An Advanced System for
Assessing Chat Participants, in D. Dochev, M. Pistore, and P. Traverso (Eds.): AIMSA
2008, LNAI 5253, Springer, Heidelberg, pp. 5868, 2008.
[38] Dasclu, M., Chioc, E.-V., Truan-Matu, ., ASAP Sistem avansat de evaluare a
participanilor la un chat, Revista Interaciune Om-Calculator 2008, Volumul de lucrri
71
Bibliografie
[39]
[40]
[41]
[42]
[43]
[44]
[45]
[46]
[47]
[48]
[49]
[50]
[51]
[52]
[53]
[54]
[55]
[56]
[57]
[58]
[59]
[60]
Bibliografie
[61] Graesser, A.C., Chipman, P., Haynes, B.C., Olney, A., Autotutor: an Intelligent Tutoring
System with mixed-initiative dialogue, IEEE Transactions on Education, 48(4):612618,
2005.
[62] Grondlund, N. E., Measurement and evaluation in teaching, New York: Macmillan,
1985.
[63] Grosz, B. J., Joshi, A. K., and Weinstein, S. Centering: A framework for modeling the
local coherence of discourse. Computational Linguistics, 21(2), 203225, 1995.
[64] Gruber, T.R., A translation approach to portable ontologies. Knowledge Acquisition,
5(2), 1993.
[65] Guarino, N., Giaretta, P., Ontologies and Knowledge Bases: Towards a Terminological
Clarification. In N. Mars (ed.) Towards Very Large Knowledge Bases: Knowledge
Building and Knowledge Sharing 1995, IOS Press, Amsterdam, 1995.
[66] Hahn, U., Strube, M., Markert, K., Bridging textual ellipses, in Proc. of COLING96,
1996.
[67] Hamburger, H., Tufi, D., Hashim, R., Structuring Two-Medium Dialog for Learning
Language and Other Things, In Owen Rambow (ed.), Proceedings of the ACL Workshop
on Intentionality and Structure in Discourse Relations, pp. 27-34, Columbus, Ohio, USA,
Association for Computational Linguistics, June 1993.
[68] Harrer, A., Hever, R., Ziebarth, S., Empowering Researchers to Detect Interaction
Patterns in E-collaboration, Frontiers in Artificial Intelligence and Applications, vol.
158, 503-510, 2007.
[69] Hearst, M., The debate on automated essay grading, IEEE Intelligent Systems, 15(5), 2237, IEEE CS Press, 2000.
[70] Hmelo-Silver, C.E., Chernobilsky, E., Masto, O., Representation for Analyzing Toolmediated Collaborative Learning, Proceedings of ICLS 2006, New Brunswick, 2006.
[71] Holmer, T., Kienle, A., Wessner, M., Explicit Referencing in Learning Chats: Needs and
Acceptance, in Nejdl, W., Tochtermann, K., (eds.), Innovative Approaches for Learning
and Knowledge Sharing, First European Conference on Technology Enhanced Learning,
EC-TEL 2006, Lecture Notes in Computer Science, 4227, Springer, pp. 170-184, 2006.
[72] Hristea, F., Introducere n procesarea limbajului natural, Editura Universitii din
Bucureti, 2010.
[73] Hritcu,
M.,
Rezoluia
anaforei,
http://consilr.info.uaic.ro/ro/resources/res/11_GenFrame+%20-%20lucrare%20diploma.
[74] Iftene, A., Trandab, D., Pistol, I., Extragerea automat a definiiilor din texte n limba
romn, Lucrrile atelierului Resurse lingvistice i instrumente pentru prelucrarea limbii
romne, Iai, Editori: Pistol, I.C., Cristea, D., Tufi, D., Editura Universitii Alexandru
Ioan Cuza, 2007.
[75] Ion, R., Segmentarea n uniti textuale atomice a intrrilor din dicionarul limbii
romne n vederea analizei structurale, Lucrrile atelierului Resurse lingvistice i
instrumente pentru prelucrarea limbii romne, Iai, Editori: Trandab, D.M., Cristea, D.,
Tufi, D., Editura Universitii Alexandru Ioan Cuza, 2008.
[76] Ishioka, T., Kameda, M., Automated Japanese Essay Scoring System: Jess, Proceedings
of the 15th International Workshop on Database and Expert Systems Applications, pages
48, 2004.
[77] Joshi, M., Ros, C. P., Using Transactivity in Conversation Summarization in
Educational Dialog. In Proceedings of the SLaTE Workshop on Speech and Language
Technology in Education, 2007.
[78] Jurafsky, D. and Martin, J.H., Speech and Language Processing. An Introduction to
Natural Language Processing, Computational Linguistics, and Speech Recognition.
Second Edition, Pearson Prentice Hall, 2009.
[79] Kakkonen, T., Myller, N., Timonen, J., Sutinen, E., Automatic Essay Grading with
73
Bibliografie
[80]
[81]
[82]
[83]
[84]
[85]
[86]
[87]
[88]
[89]
[90]
[91]
[92]
[93]
[94]
[95]
[96]
Bibliografie
[97] Lu, C.-Y., Hong, J.-S. Cruz-Lara, S., Emotion Detection in Textual Information by
Semantic Role Labelling and Web Mining Techniques, Third Taiwanese-French
Conference on Information Technology - TFIT 2006,
http://hal.inria.fr/inria00105649/en/, 2006.
[98] Lust, B., Studies in the Acquisition of Anaphora, D. Reidel, 1986.
[99] Lutticke, R., Graphic and NLP Based Assessment of Knowledge about Semantic
Networks, In Proceedings of the Artifical Intelligence in Education (AIED) conference,
2005.
[100] Magnini, B., Cavaglia, G., Integrating subject field codes into Wordnet, Second
International Conference on Language Resources and Evaluation (LREC 2002), Athens,
Greece, 2002.
[101] Mann, W. C. and Thompson, S.A., Rhetorical structure theory: A theory of text
organization. Tech. rep. RS-87-190, Information Sciences Institute, 1987.
[102] Manning, C., Schtze, H., Foundations of statistical Natural Language Processing, MIT
Press, Cambridge (Mass.), 1999.
[103] Mason, O. & Grove-Stephenson, I., Automated free text marking with paperless school,
In M. Danson (Ed.), Proceedings of the Sixth International Computer Assisted
Assessment Conference, Loughborough University, Loughborough, UK., 2002.
[104] McCallum, A., Nigam, K., A comparison of event models for naive bayes text
classification, In AAAI-98 Workshop on Learning for Text Categorization, 1998.
[105] Mercer, N., Words and minds. How we use language to think together, Routledge, 2000.
[106] Miller, G.A., Nouns in WordNet: A Lexical Inheritance System, International Journal of
Lexicography, 3(4), p.245-264, 1990.
[107] Miller, G.A., Beckwith, R., Fellbaum, C., Gross, D., Miller, K., WordNet: an on-line
lexical database, Journal of Lexicography, 3(4), p.234-244, 1990.
[108] Miller, G.A., WordNet: A lexical database, Communications of ACM, 38(11), p.39-41,
1995.
[109] Miller, T., Latent semantic analysis and the construction of coherent extracts, In:
Nicolov, N., Botcheva, K., Angelova, G. and Mitkov, R. (eds.), RecentAdvances in
Natural Language Processing III, John Benjamins, pp. 277-286, 2004.
[110] Miller, G.A., Hristea, F., WordNet Nouns: Classes and Instances, Computational
Linguistics, 32(1), The MIT Press, p. 1-3, 2006.
[111] Ming, Y., Mikhailov, A., Kuan, T.L., Intelligent essay marking system. Learners
Together, 2000.
[112] Mitchell, T., Russell, T., Broomhead, P., Aldridge, N., Towards robust computerised
marking of free-text responses, 2002.
[113] Mitkov, R., Lee, K.H., Kim, H.G., Choi, K.S., English-to-Korean Machine Translation
and anaphora resolution, J. Literary and Linguistics Computing, 12:1, 1997.
[114] Mitkov, R., Schmidt, P., On the complexity of anaphora resolution in Machine
Translation, Carlos Martin-Vide, Ed., Mathematical linguistics II, John Benjamins,
1997.
[115] Mitkov, R., Robust pronoun resolution with limited knowledge, in Proceedings of the
18th International Conference on Computational Linguistics (COLING'98)/ACL'98
Conference, 869-875. Montreal, Canada, 1998.
[116] Mitkov, R., Belguith, L. and Stys, M., Multilingual robust anaphora resolution in
Proceedings of the Third International Conference on Empirical Methods in Natural
Language Processing (EMNLP-3), 7-16, Granada, Spain, 1998.
[117] Monachesi, P., Cristea, D., Evans, D., Killing, A., Lemnitzer, L., Simov, K., Vertan, C.,
Integrating Language Technology and Semantic Web Techniques in eLearning,
Proceeding of ICL 2006.
[118] Morton, T., Using coreference for question answering, Proceeding of the ACL99
75
Bibliografie
Bibliografie
Bibliografie
on Computerized corproa (ICAME 23). Gteborg 22-26 May 2002., eds. Karin Aijmer
and
Bengt
Altenberg,
39-59.
Amsterdam/New
York:
Rodopi,
2004,
http://www.ingentaconnect.com/content/rodopi/lang/2004/00000049/00000001/art00003.
[154] Sowa, J.F., Ontology, http://www.jfsowa.com/ontology/ (accesat 2011)
[155] Stahl, G., Group Cognition: Computer Suport for Building Collaorative Knowledge, MIT
Press, 2006, http://GerryStahl.net/mit/.
[156] Stahl., G. (Ed.), Studying Virtual Math Teams, Springer, Boston, 2009.
[157] Strapparava, C., Valitutti, A., Wordnet-affect: an affective extension of wordnet, 4th
International Conference on Language Resources and Evaluation, 2004.
[158] Strapparava, C., Valitutti, A., Stock, O., The Affective weight of the lexicon, 5th
International Conference on Language Resources and Evaluation (LREC 2006), Genoa,
Italy, 2006.
[159] Sukkarieh, J.Z., Pulman, S.G., Raikes, N., Auto-marking: using computational linguistics
to score short, free text responses, In Proceedings of the 29th IAEA Conference, theme:
Societies Goals and Assessment, 2003.
[160] Tannen, D.. Talking Voices: Repetition, Dialogue, and Imagery in Conversational
Discourse, Cambridge University Press, 1989.
[161] Teplovs, C., The Knowledge Space Visualizer: A Tool for Vizualizing Online Discourse,
Proceedings of the International Conference of the Learning Sciences, 2008.
[162] Tobin,
R.,
Lxtransduce,
a
replacement
for
fsgmatch, http://www.
ltg.ed.ac.uk/~richard/ltxml2/lxtransduce-manual.html (accesat 2011)
[163] Todoroi, D., Chiorescu, A., DEI multimedia: Evoluii, perspective, Lucrrile atelierului
Resurse lingvistice i instrumente pentru prelucrarea limbii romne, Iai, Editori: Forscu
C., Tufi, D., Cristea, D., Editura Universitii Alexandru Ioan Cuza, 2006.
[164] Toulmin, S., The Uses of Arguments, Cambridge Univ. Press, 1958.
[165] Trandab, D., Iftene, A., Pistol, I., Forscu, C., Cristea, D., Resurse romneti n cadrul
proiectului LT4EL, Lucrrile atelierului Resurse lingvistice i instrumente pentru
prelucrarea limbii romne, Iai, Editori: Forscu C., Tufi, D., Cristea, D., Editura
Universitii Alexandru Ioan Cuza, 2006.
[166] Truan-Matu, ., Interfaarea evoluat om-calculator, Editura Matrix Rom, Bucureti,
2000.
[167] Truan-Matu, ., Rebedea, T., Drgan, A., Alexandru, C., Visualisation of Leanerss
Contributions in Chat Conversations, In J. Fong F.L. Wang (Eds.), Blended Learning:
Addison-Wesley, 2007.
[168] Truan-Matu, ., Rebedea, T., Polyphonic Inter-Animation of Voices in VMT, In Stahl,
G. (Ed.), Studying Virtual Math Teams, pp. 451-473, Boston, MA, Springer US, 2009.
[169] Truan-Matu, ., Rebedea, T., A Polyphonic Model and System for Inter-animation
Analysis in Chat Conversations with Multiple Participations, In A. Gelbukh (Ed.),
Cicling 2010, LNCS. 6008, pp. 354-363, Springer Berlin / Heidelberg, 2010.
[170] Tufi, D., Introduction to Computational Linguistics, 1st year, Master in Computational
Linguistics, Faculty of Computer Science, Iasi.
[171] Tufi, D., Hamburger, H., Hashim, R., Pan, J., Generating Natural Language in an
Immersive Language Learning System, In Maddy D. Brouwer-Janse and Thomas L.
Harrington (eds.), Proceedings of NATO-ASI Conference on Basics of Man-Machine
Communication for the Design of Educational Systems, Eindhoven, Netherlands, August
1993.
[172] Tufi, D., Balkanet Tezaur lingvistic multilingv pentru limbile din Balkani, 2002,
http://www.racai.ro/~tufis/papers/Tufis-ILLR2002.pdf, accesat 2011.
[173] Tufi, D., Cristea, C., Ro-Balkanet Ontologie lexicalizat, n context multilingv, pentru
limba romn, http://tutankhamon.racai.ro/~tufis/papers/tufis-cristea-sisc2002.pdf, 2002,
accesat 2011.
78
Bibliografie
[174] Tufi, D., Dragomirescu L., Tiered Tagging Revisited. In Proceedings of the 4th LREC
Conference, Lisabona, 2004.
[175] Tufi, D., Barbu Mititelu, V., Wordnetul romnesc: ontologie lexical n context
multilingv, Interaciune Om-Calculator 2005, Volumul de lucrri ale celei de a doua
Conferine Naionale de Interaciune Om-Calculator, RoCHI 2005, Editori H.D. Pitariu,
S.C. Buruga, Editura ASCR, Cluj-Napoca, 2005.
[176] Tufi, D., Barbu Mititelu, V., Bozianu, L., Mihil, C., Romanian WordNet: New
Developments and Applications. Proceedings of the 3rd Conference of the Global
WordNet Association, Seogwipo, Jeju, Republic of Korea, January 22-26, 337-344, 2006.
[177] Tufi, D., Barbu Mititelu, V., Ceauu, A., Bozianu, L., Mihil, C., Manu Magda M., Noi
dezvoltri ale Wordnet-ului romnesc, Lucrrile atelierului Resurse lingvistice i
instrumente pentru prelucrarea limbii romne, Iai, Editori: Forscu C., Tufi, D., Cristea,
D., Editura Universitii Alexandru Ioan Cuza, 2006.
[178] Tufi, D., Ion, R., Bozianu, L., Ceauu, A., tefnescu, D., Romanian Wordnet: Current
State, New Applications and Prospects, In Attila Tanacs, Dora Csendes, Veronika
Vincze, Christiane Fellbaum and Piek Vossen (eds.), Proceedings of 4th Global WordNet
Conference, GWC-2008, pp. 441-452, Szeged, Hungary, January 2008. University of
Szeged, Hungary, 2008.
[179] Uschold, M., Building Ontologies: Towards A Unified Methodogy. Proc. Expert Systems
96, Cambridge, December 16-18th, 1996.
[180] Valenti, S., Cucchiarelli, A., & Panti M., Web based assessment of student learning. In A.
Aggarwal (Ed.), Web-based Learning & Teaching Technologies, Opportunities and
Challenges, 175-197, Idea Group Publishing, 2000.
[181] Valenti, S., Neri, F., Cucchiarelli, A., An Overview of Current Research on Automated
Essay Grading, Journal of Information Technology Education, vol. 2, p. 319-330, 2003.
[182] Vantage, A study of expert scoring and IntelliMetric scoring accuracy for dimensional
scoring of grade 11 student writing responses, Technical Report RB-397, Vantage
Learning Tech., 2000.
[183] Versley, Y., Ponzetto, S.P., Poesio, M., Eidelman, V., Jern, A., Smith, J., Yang, X.,
Moschitti, A., BART: A Modular Toolkit for Coreference Resolution, Companion Volume
of the Proceedings of the 46th Annual Meeting of the Association for Compuatational
Linguistics, 2008.
[184] Vicedo, J.L., Ferrndez, A., Importance of pronominal anaphora resolution to question
answering systems, In Proceedings of the 38th Annual Meeting of the Association for
Computational Linguistics (ACL), pages 555562, 2000.
[185] Vieira, R., Poesio, M., Processing definite descriptions in corpora, In S. Botley and A.
McEnery (Eds.), Corpus-based and Computational Approaches to Discourse Anaphora,
2000.
[186] Vossen, P. A Multilingual Database with Lexical Semantic Networks, Dordrecht, Kluwer,
1998.
[187] Wada, H., Zibun, R., Discourse Processing in MT: Problems in Pronominal Translation,
Proceedings of the 13th International Conference on Computational Linguistics
(COLING'90), 1990.
[188] Wiemer-Hastings, P., Zipitria, I., Rules for syntax, vectors for semantics, In: Proceeding
of the 23rd Annual Conference of the Cognitive Science Society, 2001.
[189] Wiemer-Hastings, P., Allbritton, D., Arnott, E., RMT: A Dialog-Based Research Methods
Tutor with or without a Head, In Proceedings of the ITS2004 Seventh International
Conference, Berlin, Springer, 2004.
[190] Williams, R., Dreher, H., Automatically Grading Essays with Markit. In Proceedings of
Informing Science 2004 Conference, Rockhampton, Queensland, Australia, 2004.
79
Bibliografie
Adrese Web:
[191] Automark, http://www.intelligentassessment.com
[192] Auto-marking, http://www.ucles.org.uk/
[193] Cognitive Computation Group, University of Illinois, http://cogcomp.cs.illinois.edu/.
[194] C-rater i E-rater, http://www.ets.org
[195] DAMSL,
http://www.cs.rochester.edu/research/cisd/resources/damsl/RevisedManual/,
(accesat 2011).
[196] EGAL, https://sourceforge.net/projects/egal/
[197] ExamOnline, http://www.examonline.co.uk
[198] Idea Works. Sagrader, 2006, http://www.ideaworks.com/sagrader/index.html.
[199] IEA, http://www.knowledge-technologies.com
[200] IntelliMetric, http://www.vantage.com
[201] Jess, http://coca.rd.dnc.ac.jp/jess/
[202] MarkIT, http://www.essaygrading.com/index.jspx
[203] MRW, http://pi7.fernuni-hagen.de/
[204] PEG, http://134.68.49.185/pegdemo/ref.asp
[205] PS-ME, http://www.paperless-school.com
[206] SAGrader, http://www.ideaworks.com.
[207] SEAR, http://www.comp.rgu.ac.uk/staff/jrc/fSEAR.htm
[208] http://www.ceid.upatras.gr/Balkanet/
[209] http://www.uaic.ro/uaic/bin/download/University/profesor_de_onoare/LaudatiofinalTufis.
pdf (accesat 2011)
[210] http://dexonline.ro/ (accesat 2011)
[211] http://wordnet.princeton.edu/ (accesat 2011)
[212] http://www.ceid.upatras.gr/Balkanet/ (accesat 2011)
[213] http://www.illc.uva.nl/EuroWordNet/ (accesat 2011)
[214] http://www.istworld.com/ProjectDetails.aspx?ProjectId=a137b147dead4b75b11d4d8da46e7767&Sourc
eDatabaseId=e08bca13c562437a867a49351857a156 (accesat 2011)
[215] http://publications.europa.eu/eurovoc/index_ro.htm (accesat 2011)
[216] http://www.europeana.ro/index.php/2010/12/13/eurovoc/ (accesat 2011)
[217] http://www.editura.uaic.ro/site/fisa-carte.php?id_d=d05&id_c=657 (accesat 2011)
[218] http://www.yorku.ca/vpaweb/romanian/index.htm (accesat 2011)
[219] http://www.yorku.ca/vpaweb/ romanian/ data/atlas.htm (accesat 2011)
[220] http://profs.info.uaic.ro/~ipistol/tlu/res/wsdusingwn.pdf (accesat 2011)
[221] https://consilr.info.uaic.ro/edtlr/wiki/index.php?title=Despre_proiect (accesat 2011)
[222] http://multiwordnet.fbk.eu/english/home.php (accesat 2011)
[223] http://wndomains.fbk.eu/ (accesat 2011)
[224] http://www.cse.unt.edu/~rada/affectivetext/ (accesat 2011)
[225] http://lilu.fcim.utm.md/ (accesat 2011)
[226] http://www.globalwordnet.org/ (accesat 2011)
[227] http://www.globalwordnet.org/gwa/wordnet_table.htm (accesat 2011)
[228] http://www.ltfll-project.org (accesat 2011)
[229] https://www.cs.pub.ro/index.php/component/project/article/160?lang=ro(accesat 2011)
[230] http://protege.cim3.net/file/pub/ontologies/wine/ (accesat 2011)
[231] http://www.co-ode.org/ontologies/pizza/2007/02/12/ (accesat 2011)
[232] http://sig.biostr.washington.edu/projects/fm/AboutFM.html (accesat 2011)
[233] http://www.geneontology.org/ (accesat 2011)
[234] http://proteinontology.org.au/ (accesat 2011)
[235] http://www.lt4el.eu (accesat 2011)
80
Bibliografie
[236] http://consilr.info.uaic.ro/uploads_lt4el/
[237] http://www.w3.org/XML (accesat 2011)
[238] http://www.loa-cnr.it/DOLCE.html (accesat 2011)
[239] http://www.cilr.cam.ac.uk/
[240] http://consilr.info.uaic.ro/ro/index.php
[241] http://www.streetdirectory.com/travel_guide/15672/writing/all_about_readability_formul
as_and_why_writers_need_to_use_them.html
[242] http://nlp.stanford.edu/software
[243] http://www.ibm.com/developerworks/java/library/j-jazzy/
[244] http://jazzy.sourceforge.net/
[245] http://gate.ac.uk
[246] http://aliasc-i.com/lingpipe/
[247] http://bart-coref.org/
[248] http://sourceforge.net/projects/concertchat/
[249] http://protege.stanford.edu/
[250] http://www.orgnet.com/sna.html
[251] http://snowball.tartarus.org/
[252] http://lsa.colorado.edu
[253] http://prefuse.org/
[254] http://www.scritube.com/stiinta/informatica/Rezolutia-anaforei14131783.php
[255] http://consilr.info.uaic.ro/ro/resources/pre/
[256] http://en.wikipedia.org/wiki/STUDENT_(computer_program)
[257] http://www-it.fmi.uni-sofia.bg/larflast/
[258] http://www.springerlink.com/content/wdu6nmyhvl9m20n2/, Truan-Matu, , Metaphor
Processing for Learning Terminology on the Web, S.A. Cerri and D. Dochev (Eds.):
AIMSA 2000, LNAI 1904, pp. 232-241, Spriger-Verlag Berlin Heidelberg, 2000.
[259] http://sterling.ddns.comp.nus.edu.sg/~nakov/selected_papers_list/nakov_ECAI02.pdf,
Angelova, G., Boytcheva, S., Kalaydjiev, O., Trausan-Matu, ., Nakov, P., Strupchanska,
A., Adaptivity in Web-Based CALL, In Proceedings of 15th European Conference on
Artificial Intelligence, Lyon, IOS Press, 2002.
[260] http://www.arnetminer.org/viewpub.do?pid=458970, Truan-Matu, ., Maraschi, D.,
Cerri, S., Ontology-Centered Personalized Presentation of Knowledge Extracted From
the Web, in S.Cerri, G.Gouarderes (eds.), Intelligent Tutoring Systems 2002, Springer,
2002.
81
Glosar de abrevieri
GLOSAR DE ABREVIERI
ADL Advanced Distributed Learning (nvare distribuit avansat)
AEA Automatic Essay Assessor
ALAB Atlasul lingvistic audiovizual al Bucovinei
ALR Atlas lingvistic romn
AMPER Atlas multimdia prosodique de lespace roman
AR Anaphora Resolution (Rezoluia anaforei)
ASAP An Advanced System for Assessing Chat Participants (Sistem avansat pentru evaluarea
partcipanilor la un chat)
ATM Automated Text Marker
BETSY The Bayesian Essay Test Scoring sYstem
CAA Computer Assisted Assessment (Evaluare asistatR de calculator)
CbAS Computer-based Assessment System (Sistem de evaluare bazat pe calculator)
Ch.A.M.P. Chat Assesment and Modeling Program (Program de evaluare i modelare a
contribuiei participanilor la chat)
CILR Cambridge Institute of Language Research
CONCEDE CONsortium for Central and Eastern Dictionaries Encoding
CoP Community of Practice (comunitatea de practic)
CSCL Computer Supported Collaborative Learning (nvare colaborativ bazat pe calculator)
CSF Common Semantic Framework (Cadrului semantic comun)
DA Dicionarului Academiei
DE Discourse Entity (entitate de discurs)
DEX dicionar explicativ al limbii romne
DILR Dicionarului invers al limbii romne
DLR Dicionarul Limbii Romne
DTD Document Type Definition
DTLR Dicionarul Tezaur al Limbii Romne
EGAL The Essay Grading and Analysis Logic
ETS Educational Testing Service
FLSS Formal Learning Support System Course Editing Service
GMAT Graduate Management Admission Test
GWA Global WordNet Association
IAC Instruirea asistat de calculator
ICAI Intelligent Computer Assisted Instruction (Instruire inteligent asistat de calculator)
ICAL Intellligent Computer Assisted Learning (nvare asistat de calculator prin sisteme
inteligente)
ICT Information and Communication Technology (Tehnologia informaiei i comunicrii)
IE Information Extraction (extragere a informaiei)
IEA The Intelligent Essay Assessor
IEMS The Intelligent Essay Marking System
iFLSS Informal Learning Support Service to Locate Content and Peers
ILI index interlingual
IRC Internet Relay Chat
ITAL Interactive Technologies in Assessment and Learning
Jess The Japenese Essay Scoring System
LarFLaST LeARning Foreign Language Scientific Terminology
82
Glosar de abrevieri
83