Referat

Academia Romn
INSTITUTUL DE CERCETARI PENTRU INTELIGEN ARTIFICIALA
Referat
INTEGRAREA PRELUCRRII LIMBAJULUI

NATURAL N E-LEARNING
CONDUCTOR TIINIFIC:
Acad. Prof. Dr. Ing. IOAN DAN TUFI
DOCTORAND:
Iuliana Dobre
Bucureti
2011
CUPRINS
INTRODUCERE.........................................................................................................
CAPITOLUL 1 RESURSE LINGVISTICE UTILIZABILE N E-LEARNING....
1.1.
1.2.
1.3.
1.4.
Dicionare..............................................................
Tezaure .................................................................
Atlase lingvistice electronice .............................................................
Ontologii lexicale..............................................................................
1.4.1. Wordnet..............................................................................
1.4.2. EuroWordNet.....................................................................
1.4.3. BalkaNet.............................................................................
1.4.4. Wordnet-ul romnesc..........................................................
1.5. Corpusuri..........................................................................................
6
10
10
14
15
17
18
19
21
CAPITOLUL 2 PROIECTUL TEHNOLOGII LINGVISTICE PENTRU

E-LEARNING (LT4EL)...............................................................
23
2.1. Prezentare general............................................

2.2. Arhitectura i etapele proiectului LT4EL...........................................
23
23
CAPITOLUL 3 PROIECTUL TEHNOLOGII LINGVISTICE PENTRU

NVAREA CONTINU (LTfLL)...........................................
29
3.1. Aspecte generale...........................................................................

3.2. Serviciile furnizate n cadrul proiectului LTfLL .....................
3.2.1. LeaPos (Leaner Positioning Service) din cadrul
LTfLL........
3.2.2. Conspect (Service for Monitoring Conceptual
Development) din cadrul LTfLL..........................................
3.2.3. PolyCAFe (Chat & Forum Analysis and Feedback System)
din cadrul LTfLL.................................................................
3.2.4. Pensum (Online Synthesis Advisor) din cadrul
LTfLL..........
3.2.5. FLSS (The Formal Learning Support System Course
Editing Service) din cadrul LTfLL.......................................
3.2.6. iFLSS (The Informal Learning Support Service to Locate
Content and Peers) din cadrul LTfLL...................................
3.2.7. Annotation Tool din cadrul LTfLL......................................
3.2.8. Short Thread din cadrul LTfLL............................................
3.2.9. Long Thread din cadrul LTfLL............................................
29
30
31
32
34
40
42
44
45
46
47
CAPITOLUL 4 UTILIZAREA REZOLUIEI ANAFOREI N ELEARNING....
48
4.1. Rezoluia anaforei ..........................................

4.2. Rezoluia anaforei n e-Learning........................................................
48
49
CAPITOLUL 5 ALTE PROIECTE SEMNIFICATIVE..........................................
53
5.1. Sisteme CAA de evaluare a rspunsurilor sub form de text ale

studenilor, utiliznd NLP ............................................
5.2. Sisteme CSCL de analiz utiliznd NLP a interaciunilor la nivelul
conversaiilor de tip chat sau forum .................................................
5.2.1. Polyphony, sistem de chat bazat pe cunotine.....................
5.2.2. ASAP, sistem de evaluare a participanilor la un
chat...
5.2.3. Ch.A.M.P., sistem pentru evaluarea i modelarea
contribuiei participanilor la un chat.
53
61
62
63
66
CONCLUZII.................................................................................................................
67
BIBLIOGRAFIE..........................................................................................................
69
GLOSAR DE ABREVIERI.........................................................................................
81
Introducere
INTRODUCERE
Informatizarea continu a societii se manifest prin aplicarea activ a tehnologiilor
informaionale. n acest context procesarea limbajului natural (eng. Natural Processing Language
NLP) devine o problem actual. Putem meniona trei direcii importante n NLP:
elaborarea instrumentarului pentru NLP;
crearea resurselor lingvistice reutilizabile;
elaborarea aplicaiilor n baza acestor resurse.
Aplicaiile NLP n aria e-Learning-ului pot fi clasificate n funcie de mai multe criterii. Unul
dintre ele se refer la modul de instruire, sincron sau asincron. Printre principalele obiective ale
aplicaiilor i metodelor de instruire din domeniul e-Learning se numr adresabilitatea acestora,
respectiv accesibilitatea i adaptabilitatea n cadrul Sistemului pentru managementul nvrii
(Learning Management System LMS). Disponibilitatea unor resurse sau tehnologii lingvistice
pentru o anumit limb particular poate face diferena, de asemenea. O alt problem conex poate
fi portabilitatea unei soluii pentru alte limbi sau pentru alte arii tematice, unde informaia specific
subiectului nu poate fi obinut n totalitate automat. Un alt criteriu de clasificare al aplicaiilor NLP
n e-Learning se refer la integrarea modulelor n cadrul aplicaiilor.
n lucrarea de fa sunt prezentate aspecte referitoare la integrarea resurselor lingvistice cu
scopul de a sprijini instructorul n timpul interaciunii sale cu sistemul educaional i de a permite
personalizarea procesului de instruire, managementul, distribuia i regsirea materialelor de
nvare.
Comunicarea reprezint un punct cheie n cadrul mediilor colaborative, cum ar fi
conferinele chat. De aceea, este un atu esenial faptul de a dispune de instrumente de comunicare
adecvate, care s permit realizarea de conferine organizate i clare. n multe scenarii de lucru
colaborativ, comunicarea, n special cea facilitat de calculator, reprezint o gtuire semnificativ i,
de aceea, punerea la dispoziia membrilor unei echipe a unor unelte special concepute n acest scop
se poate dovedi a fi un avantaj crucial n dezvoltarea proiectelor ([58]). Conferinele computerizate
au devenit tot mai utilizate datorit beneficiilor pe care le aduc: confort, independen spaial i
temporal, posibilitatea utilizatorilor de a face parte dintr-o comunitate virtual ([17]). Utilizarea
tehnologiilor i resurselor NLP n nelegerea i analizarea datelor furnizate de studeni, i anume
eseurile, blog-urile, conversaiile acestora pe platforme chat i forumuri va fi, de asemenea, un alt
subiect abordat n cadrul lucrrii.
Dac n nvarea colaborativ, n mediul virtual ca i n sala de clas, profesorul depune
acelai efort, pentru evaluarea studenilor situaia se schimb: profesorul trebuie s evalueze
participarea fiecrui student din comuniunea online, ce poate ajunge la dimensiuni considerabile.
Simpla parcurgere a contribuiei fiecrui participant necesit foarte mult timp i concentrare din
partea profesorului.
Evaluarea cunotinelor instruiilor joac un rol esenial n procesul educaional, fiind
absolut necesar:
pentru profesori:
4
Introducere
aceasta le furnizeaz un feedback care i informeaz ct de bine au fost nelese de

ctre studeni conceptele prezentate i le permite s identifice deficienele, ideile
preconcepute ale acestora;
permite acestora s in o eviden fiecrui student, prin colectarea informaiilor

referitoare la acesta, dar i progresului ntregii clase;
pentru studeni:
-
pentru a-i controla progresul n acumularea cunotinelor;
pentru a-i identifica locul n cadrul grupului;
pentru a le furniza feedback-ul coninnd informaii referitoare la conceptele i datele

nelese mai puin corect;
pentru mbuntirea procesului de instruire, n vederea perfecionrii sistemului de

instruire.
n ultimii ani, interesul n dezvoltarea i utilizarea sistemelor de evaluare bazate pe
calculator (eng. Computer-based Assessment Systems CbAS) a crescut exponenial datorit
creterii numrului de studeni i a posibilitilor oferite de omniprezentul e-Learning ([181]).
Importana necesitii NLP n dezvoltarea majoritii acestor sisteme se bazeaz pe utilizarea
ntrebrilor numite ntrebri tip-obiectiv care pot fi de mai multe feluri: alegere multipl, rspunsuri
multiple, rspuns scurt, selecie/asociaie, punct fierbinte i identificarea vizual ([180]). Cei mai
muli cercettori n domeniu sunt de acord cu faptul c sunt multe aspecte complexe dificil de
msurat cu ajutorul acestor ntrebri tip-obiectiv, i anume: abilitatea de a memora, de a organiza i
integra ideile, de a se exprima n scris, de a interpreta i aplica informaii, abiliti care pentru a fi
evaluate necesit structurarea unui rspuns care nu se ncadreaz n rspunsurile care pot fi date la
ntrebrile tip-obiectiv ([62]). Astfel, pentru msurarea unor astfel de abiliti, corespunznd
nivelurilor mai nalte ale taxonomiei lui Bloom ([19]), rspunsurile sub form de eseu servesc
pentru atingerea acestui scop. Aspecte ale evalurii acestor rspunsuri sub form de text utiliznd
NLP este un alt subiect tratat n cele ce urmeaz.
Cap.1. Resurse lingvistice utilizabile n e-Learning
CAPITOLUL 1
RESURSE LINGVISTICE UTILIZABILE N E-LEARNING
Aplicaiile lingvisticii computaionale, inclusiv n e-Learning, nu pot avea performane
competitive n absena unor resurse lingvistice de foarte bun calitate. Aceste aplicaii reprezint, de
cele mai multe ori, o combinare de module separate, fiecare cu propriile necesiti informaionale.
De exemplu, un sistem de ntrebare-rspuns necesit o prelucrare primar a ntrebrii utilizatorului
pentru a putea extrage automat din aceasta o fraz de interogare pentru motorul de cutare. La
rndul ei, prelucrarea primar const n adnotare morfolexical i lematizare, procese care nu pot
funciona fr existena unor lexicoane sau modele de limb, acestea din urm fiind extrase din
corpusuri adnotate morfolexical. n consecin, resursele lingvistice computaionale reprezint o
aproximare (materializat prin elaborarea de modele de limb, lexicoane, ontologii lexicale etc.) a
competenelor lingvistice ale vorbitorilor ([13]).
Datorit utilitii acestora, inclusiv n e-Learning, n cele ce urmeaz, vor fi prezentate
cteva dintre cele mai reprezentative resurse ale lingvisticii computaionale, i anume: dicionarele,
tezaurele, ontologiile lexicale, corpusurile, precum i aspecte generale ale lor.
1.1. Dicionare
Dicionare se realizeaz de foarte mult vreme. Cele mai mari dicionare, cele lingvistice n
special, au necesitat ani i chiar zeci de ani de munc, unele dintre ele nefiind nici acum terminate.
Alta ar fi fost situaia poate dac atunci ar fi existat calculatoarele i programele de azi. n ultimele
decenii s-au fcut progrese enorme n domeniul procesrii limbajului natural, lingvisticii
computaionale i astfel s-au reluat i finalizat multe astfel de proiecte.
Crearea de baze de date lexicale (LDB) este o preocupare a mai multor ri balcanice. Astfel,
n perioada 1997-1999, n cadrul proiectului european CONCEDE (CONsortium for Central and
Eastern Dictionaries Encoding), colectivul condus de Acad. Dan Tufi este unul din realizatorii
schemei XML generice de codificare standardizat a dicionarelor explicative. Schema de
codificare, cunoscut sub numele CONCEDE, a fost folosit pentru implementarea unor dicionare
explicative pentru mai multe limbi (bulgar, ceh, englez, estonian, maghiar, sloven i desigur
romn). Un rezultat foarte semnificativ al activitii specialitilor din cadrul colectivului condus de
Acad. Dan Tufi i a dumnealui personal, n domeniul lexicografiei computaionale, a fost realizarea
unui compilator pentru dicionare n format tipografic care analizeaz textul respectiv i genereaz
codul XML conform cu descrierea CONCEDE. Compilatorul, numit DIC, se bazeaz pe gramatica
conveniilor tipografice specifice colii romneti de lexicografie, fiind parametrizabil att n raport
cu conveniile tipografice, ct i cu schema XML a codificrii int. Cu ajutorul acestui compilator,
n anul 2000 a fost finalizat implementarea conform cu schema CONCEDE a ntregului dicionar
explicativ al limbii romne (DEX, ediia 1996). Aceast implementare profesional a DEX-ului
([210]) permite regsirea de informaii lexicografice dup o mulime de criterii (categorie
gramatical, sufixe gramaticale sau lexicale, etimologie, variante, grupuri de litere coninute n
cuvntul tem, definiii etc.). Aceste cercetri i rezultatele obinute au facilitat lansarea n anul
2001 a proiectului de ontologie lexical pentru limba romn, proiect de un deosebit impact pentru
comunitatea tiinific interesat de prelucrarea automat a limbii romne ([209]).
Dicionarul Limbii Romne (DLR) este continuarea Dicionarului Academiei1 (DA) a

crui construcie a nceput n anul 1913. El reia enumerarea minuioas a fondului lexical de la
intrarea Lojni cu scopul declarat de a inventaria tezaurul lexical al limbii romne ([75]). Cele dou
lucrri sunt astfel mpreun cunoscute sub denumirea de Dicionarul Tezaur al Limbii Romne
(DTLR) care este cea mai ampl lucrare lexicografic romnesc, considerat nu o dat o oper de
o importan naional ([148]).
Proiectul eDTLR ([221]), nceput n anul 2007 i finalizat n 2010, a avut drept scop
transpunerea DTLR n format electronic cu consecine benefice evidente pentru comunitatea
lexicografic romneasc implicat n dezvoltarea lui, dar i pentru comunitatea lingvisticii
computaionale romneti ([36]). Formatul electronic al DTLR permite operaii ca interogarea (pe
diverse criterii) i vizualizarea intrrilor cu o uurin de neimaginat pentru lexicografii secolului
trecut. Lingvistica computaional romneasc are ns, probabil, cel mai mult de ctigat de pe
urma unei astfel de resurse lexicografice monumentale. De la analizele morfologice pn la
diversitatea enorm de sensuri inventariate, eDTLR este util pentru o multitudine de probleme
precum dezambiguizarea semantic automat (engl. Word Sense Disambiguation), analiza i
generarea morfologic, adnotarea morfosintactic (engl. Part of Speech Tagging). De asemenea,
eDTLR este o surs nepreuit de validare semantic i extindere a ontologiei lexicale pentru limba
romn, RoWN ([222]), prin diversitatea sensurilor inventariate pentru fiecare cuvnt ([75]).
Formatul electronic al unui dicionar este valoros n msura n care evideniaz prin adnotri
structura intrrilor. Astfel, de cele mai multe ori, o intrare de dicionar este divizat logic ntr-o
mulime de sensuri. Fiecare sens conine o definiie, exemple de utilizare a cuvntului n sensul
respectiv, sensuri secundare etc. Structura intrrilor de dicionar poate fi utilizat de aplicaii de
Prelucrare Automat a Limbajului Natural ([75]), dar poate fi util i diferitelor interogri care se
pot imagina n cadrul proceselor de instruire cu ajutorul calculatorului.
Fig. 1.1. dex online (preluat din [210])

Rmnnd n domeniul dicionarelor, trebuie remarcat c pn n anul 2007, n lexicografia
romneasc a existat un singur dicionar n care cuvintele erau aezate n ordine alfabetic invers.
Este vorba de Dicionar invers, lucrare colectiv, ntocmit sub conducerea academicianului
Alexandru Graur i publicat la Editura Academiei n 1957 ([46]).
Prelund ideea alctuirii unui asemenea dicionar, autorii Dicionarului invers al limbii
romne (DILR) au consolidat acest model lexicografic. n cadrul DILR cuvintele sunt
ordonate dup terminaii i nu dup iniiale. Terminaia, adic secvena final alctuit din una sau
1
Romne
mai multe litere, poate fi coincident sau nu cu unul sau cu mai multe sufixe lexicale, de exemplu
tor este sufix n silitor, muncitor, nu i n abator, unde este doar terminaie, reas reprezint
ntotdeauna dou sufixe, ca n: buctreas, cenureas, portreas .a. Toate cuvintele care au
aceeai terminaie sunt niruite prin ordonarea lor alfabetic invers n raport cu uzana
lexicografic, adic de la dreapta la stnga. Aceast ordonare, spre deosebire de cea normal,
permite specialitilor observarea, compararea i studierea cuvintelor dup modul comun de
formare, de exemplu, care este semnificaia specific secvenei derivative adugat semnificaiei
bazei, ce reguli combinative pot fi deduse ([27]).
Una dintre noutile aduse de DILR a fost abandonarea unui principiu lexicografic
tradiional, acela al meninerii intacte a inventarului lexical al dicionarului sau al dicionarelorsurs, prin eliminarea cuvintelor ieite din circulaie. DILR cuprinde toate cuvintele din DEX2,
DOOM2, NDN, cu excepia celor ieite din uz, a expresiilor i a locuiunilor, neinteresante pentru
un astfel de dicionar. Meninerea fondului lexical vechi, de multe ori n detrimentul
includerii cuvintelor noi n dicionarele romnei actuale prezint suficiente dezavantaje ([27]).
O noutate absolut o constituie formatul electronic al dicionarului, deoarece niciunul
dintre formatele electronice ale dicionarelor romneti nu reprezint altceva dect varianta
electronic a inventarului respectiv. De fapt, e-DILR este chiar un motor electronic de
cutare i gsire, care dispune de un program capabil s afieze, pe baza unor comenzi, liste
complete de cuvinte sau de pri de vorbire indicate care conin o anumit secven de litere n
poziiile: iniial, interioar i/sau final. Aceast secven indicat coincide sau nu cu unul sau
cu mai multe prefixe/sufixe, chiar cu o tem lexical, de aceea, n lista afiat pe baza
comenzii apar, alturi de cuvintele derivate, i cuvinte nederivate care conin secvena respectiv.
De asemenea, DILR ofer imaginea sistemului morfolexical al romnei actuale, deoarece pe
baza lui se pot identifica microsistemele lexico-gramaticale. Se poate considera c gruparea
cuvintelor n microsisteme este realizabil cu ajutorul e-DILR i conduce la stabilizarea
normativ att de necesar. DILR este, prin urmare, o lucrare nou prin concepie i prin
inventarul de cuvinte. Dac ideea ordonrii cuvintelor limbii romne dup terminaie nu e
nou, formatul electronic al DILR nu e unul obinuit, ci este conceput s faciliteze orice fel de
cercetare asupra dinamicii lexicului romnesc actual. n plus, DILR este al doilea dicionar bazat
pe o asemenea ordonare a cuvintelor care poate fi util cercetrii i astfel, poate consolida un
model lexicografic. n comparaie cu alte dicionare romneti pe suport electronic, e-DILR nu e
doar versiunea electronic a inventarului lexical, ci e un adevrat program, menit studierii
limbii romne din perspectiva dinamicii sale derivative, n special ([27]).
n ultimii ani numeroase proiecte de informatizare a limbii romne s-au desfurat i n
Republica Moldova, printre cele mai importante fiind cel de informatizare a Marelui Dicionar al
Limbii Romne (MDLR). Unul dintre ele este cel al Academiei de Studii Economice din Moldova
i anume realizarea unei baze de date multimedia pornind de la Dicionarul Explicativ Ilustrat.
Astfel rezultatul a fost baza de date realizat n MS Access 2000 i intitulat DEI Multimedia,
avnd 5 grupuri int care s acopere ct mai mult din publicul larg vorbitor de limb romn i nu
numai ([163]):
1. Publicul precolar i colar de clase mici (I, II). n acest caz, n care modul de prezentare
conteaz cel mai mult, DEI Multimedia ar trebui s aib o interfa ct mai atrgtoare
pentru copii, ct mai vesel, viu colorat, animat, organizat astfel nct s acorde un
spaiu mai larg afirii imaginilor i a clipurilor video.
2. Elevi de ciclu primar (III, IV) i ciclu gimnazial. O interfa pentru acest grup de
utilizatori ar trebui s fie, la fel ca i n cazul anterior, vesel, viu colorat, atrgtoare i
sugestiv, uor de folosit, pentru ca elevii s nu aib nevoie de ajutorul profesorului i s
8
o poat utiliza singuri. De asemenea, organizarea interfeei trebuie s ofere posibilitatea

de cutare i n egal msur spaiu de afiare att textelor ct i imaginilor.
3. Elevi de liceu, studeni, utilizatori cu studii de nivel mediu sau superior. La acest grup
deja interfaa ar trebui s fie serioas. Aplicaia nu mai trebuie s fie orientat pe modul
de prezentare, ci pe funcionalitate. Bineneles c nu trebuie pierdut din vedere aspectul
estetic, interfaa trebuie s fie atrgtoare, dar n acelai timp simpl i ergonomic, s
asigure rapiditatea funcionrii.
4. Cei ce nva limba romn, turiti strini, studeni strini. Dei pare un grup restrns, nu
trebuie deloc pierdut din vedere, mai ales c n acest caz este necesar o aplicaie cu totul
special. Pe lng faptul c interfaa ar trebui prezentat n mai multe limbi de circulaie
internaional, aceasta trebuie s scoat n eviden foarte mult controalele audio pentru a
se putea studia cu mare atenie pronunia cuvintelor.
5. Mediul academic lingvistic, studeni sau profesori de litere. Dei acetia sunt creatorii
dicionarelor, chiar ei au nevoie de multe ori de un dicionar cu un acces foarte rapid la
informaie, att pentru uz personal, ct i pentru uz didactic. O aplicaie destinat acestui
grup de utilizatori va trebui s ofere tot felul de posibiliti de generare i listare de
rapoarte, analize, statistici, de salvare, exportare n diverse formate a datelor pentru ca
acetia s le foloseasc ulterior mai ales n scop didactic.
Studiind necesitile fiecrui grup de utilizatori i fcnd o medie a acestora, a fost creat
aplicaia DEI Multimedia online ce s-a dorit a fi universal, adic s poat fi utilizat cu succes de
utilizatori din toate grupurile. Este o aplicaie web i prezint unele avantaje suplimentare: nu
trebuie actualizat de utilizatori, fiind actualizat permanent de echipa DEI Multimedia, asigur
foarte uor feedback-ul, este accesibil oricnd, de oriunde i de ctre oricine are o conexiune
Internet (independent de platform), n schimb, fiind online, nu exceleaz cu modul grafic de
prezentare fiind orientat mai mult spre funcionalitate. Este o aplicaie cu un design extrem de
simplu, dar plcut. Dei exist numeroase dicionare online complete ale limbii romne, ele prezint
numai definiii n mod text, nici unul nefiind multimedia ([163]).
Fig. 1.2. D.E.I. Multimedia Online (preluat din [163])

DEI Multimedia online este o aplicaie web distribuit, construit pe arhitectura
Client/Server n tripl legtur. Aceast structur este cea mai ntlnit la aplicaiile distribuite i se
9
constituie din 3 pri: interfaa cu utilizatorul, funcionalitatea i baza de date, fiecare dintre pri
putnd fi stocat pe calculatoare diferite. Astfel, utilizatorul opereaz cu interfaa prin intermediul
browserului web de pe calculatorul propriu. Acesta emite cereri ctre serverul web pe care se
gsete propriu-zis codul surs (funcionalitatea) i primete informaiile dorite. Browserului web
i rmne sarcina de a formata informaiile pentru afiare. Dac sunt necesare informaii din baza de
date, atunci serverul web este cel care le cere de la serverul de date i le prelucreaz, acest lucru
fiind transparent pentru calculatorul client ([163]).
1.2. Tezaure
Tezaurele lingvistice pun la dispoziie informaii asupra relaiilor dintre cuvinte, n principal
despre sinonimia dintre acestea. Fiecare apariie a aceluiai cuvnt n cadrul mai multor categorii ale
tezaurului reprezint sensuri diferite pe care le poate avea cuvntul. O mulime de cuvinte din
aceeai categorie reprezint o mulime de cuvinte nrudite din punct de vedere semantic ([220]).
EuroVoc este un tezaur multilingv i multidisciplinar care acoper terminologia domeniilor
de activitate ale Uniunii Europene, punnd accentul pe activitatea parlamentar. EuroVoc este
disponibil n 22 de limbi oficiale ale Uniunii Europene (bulgar, ceh, danez, englez, eston,
finlandez, francez, german, greac, italian etc), n limba uneia din rile candidate (croat) i n
limba unei ri tere (srb) ([215]). EuroVoc este gestionat de Oficiul pentru Publicaii al Uniunii
Europene ([215]), care a trecut la gestiunea bazat pe ontologie a tezaurelor i la tehnologii
specifice web-ului semantic, n conformitate cu recomandrile W3C i cu ultimele tendine ale
standardelor n materie de tezaure ([216]).
Tezaurul EuroVoc este utilizat, printre altele, de ctre Parlamentul European, Oficiul pentru
Publicaii, parlamentele naionale i regionale din Europa, precum i de administraiile naionale i
de utilizatorii privai din statele membre ale Uniunii Europene i din ri tere, n sistemele de eLearning pentru predarea disciplinelor juridice, relaii internaionale i politice.
Fig. 1.3. Tezaurul EuroVoc (preluat din [215])
1.3. Atlase lingvistice electronice

Cercetrile n direcia informatizrii atlaselor lingvistice reprezint un stadiu nou n
dezvoltarea metodologiei geografiei lingvistice europene, tehnologia informaiei fiind folosit din ce
n mai frecvent n procesul editrii lucrrilor de cartografie lingvistic, alturi de importante
instrumente de lucru foarte utile pentru studenii i cercettorii din aria de activitate a filologiei.
La nivel mondial, editarea asistat de calculator a atlaselor lingvistice, care a debutat
prin simpla generare pe calculator a simbolurilor necesare pentru transcrierea fonetic a
10
rspunsurilor din anchet a nregistrat o prim etap notabil prin apariia atlasului lingvistic sonor
intitulat LAtlante linguistico del ladino centrale e dialetti limitrofi (Hans Goebl i
Roland Bauer, 1978-1989), care se ntemeiaz pe asocierea bazei de date constituit din
materialul de anchet prezentat n transcriere fonetic cu fiierul audio corespunztor ([15]).
Mai aproape n timp i n privina concepiei de ansamblu este viziunea care a stat la baza
elaborrii Atlasului lingvistic italian (Atlante linguistico italiano , L. Massobrio, G. Ronco
et ali, vol. I, 1995; vol. II, 1996; vol. III, 1997), care izbutete performana de a se menine
pe linia cartografiei lingvistice de tradiie clasic valorificnd n acelai timp resursele
tehnoredactrii asistate de calculator ([15]).
n aceeai ordine de idei, trebuie menionat i Atlas multimdia prosodique de
lespace roman (AMPER), proiect iniiat de Centrul de Dialectologie al Universitii Stendhal
Grenoble 3, care vizeaz proiectarea cartografic a variabilitii intonaionale n spaiul romanic cu
ajutorul mijloacelor puse la dispoziia lingvitilor de noile direcii informatice ([15]).
n spaiul romnesc, cercetri susinute n aceast direcie au nceput n anul 2000, n cadrul
Filialei Iai a Academiei Romne, printr-o colaborare interdisciplinar ntre cercettori de la
Institutul de Informatic Teoretic i de la Institutul de Filologie Romn A. Philippide. Scopul
acestui proiect a constat n realizarea unui sistem informatizat cu ajutorul cruia s se poat edita
atlasele lingvistice romneti regionale, precum i textele dialectale aferente respectivelor atlase.
Cercetrile s-au desfurat n cadrul a dou programe ale Academiei Romne, intitulate Cercetri n
domeniul foneticii i fonologiei limbii romne, cu aplicaii la atlasele lingvistice romneti
regionale (20002002) i, respectiv, Proiectarea i implementarea unui sistem integrat de aplicaii
software pentru realizarea Noului Atlas lingvistic romn, pe regiuni i editarea textelor
dialectale (20032004) ([125]).
Sistemul software ce modeleaz atlasul lingvistic electronic conine module care realizeaz
gestionarea urmtoarelor grupe de informaii (fig. 1.4.) ([125]):
simboluri pentru editarea transcrierilor fonetice;
dicionarele atlasului lingvistic (cuvinte de baz, puncte de anchet, transcrieri fonetice);
informaii grafice pentru descrierea hrilor;
hrile atlasului lingvistic, care pot fi consultate i/ sau tiprite.
Fig. 1.4. Componentele atlsasului lingvistic electronic ALR (preluat din [15])
11
Din punct de vedere funcional, atlasul lingvistic electronic este structurat pe dou
componente principale ([125]):
a) proceduri pentru pregtirea datelor primare (introducerea materialului lingvistic,
realizarea hrilor interpretative, realizarea planelor cu material necartografiat etc.);
b) interfaa multimedia.
Schema de funcionare a aplicaiei software n varianta sa interactiv (i.e. acces Internet)
poate fi urmrit n fig. 1.5.
Fig. 1.5. Schema de funcionare a atlasului lingvistic electronic ALR (preluat din [125])
Pentru structurarea informaiilor lingvistice i grafice necesare redactrii atlasului lingvistic
s-au configurat unumite Dicionare n care s-au colectat informaiile primare privind titlul hrilor
(cuvinte de baz), punctele de anchet, speech (colecie audio), transcrierea fonetic i notele
asociate transcrierii fonetice. Fiecare dintre aceste dicionare are o funcie bine definit, dup cum
urmeaz ([125]):
a) Dicionar Cuvinte de baz: conine fondul de cuvinte (titlul hrilor) care pot fi gsite
n atlasul lingvistic electronic, ntrebrile care au fost puse la anchet, note, observaii i,
eventual, imagini ce pot fi folosite n ntrebrile indirecte;
b) Dicionar Puncte de anchet: conine informaii (cod, nume, observaii) despre
punctele de anchet prezente n cadrul atlasului lingvistic;
c) Colecia audio: include nregistrrile n format WAV a rspunsurilor date n timpul
anchetei, pentru fiecare cuvnt din dicionar. Aceast colecie se poate constitui doar dac
ancheta dialectal a fost conceput a se desfura n faa microfonului, nregistrrile
astfel realizate putnd fi ulterior prelucrate pentru a intra n baza de date a atlasului
electronic;
d) Dicionar Transcrieri fonetice: reprezint elementul principal al modulului i conine
transcrierea fonetic a rspunsului la ntrebarea pus n anchet pentru fiecare cuvnt din
dicionarul Cuvinte de baz n fiecare punct de anchet, iar, acolo unde este posibil, i
nregistrarea audio corespunztoare din Colecia Audio.
12
Conexiunile dintre informaiile stocate n dicionarele ALR sunt reprezentate n figura 1.6.
Fig. 1.6. Conexiunile dintre dicionarele care alctuiesc atlasul lingvistic electronic ALR
(preluat din [125])
Dup o perioad de testri i mbuntiri a variantelor succesive ale aplicaiei software, n

anul 2005 a fost finalizat programul de editare asistat de calculator a atlasului lingvisitic2, iar n
2007 a aprut Noul atlas lingvistic romn pe regiuni. Moldova i Bucovina, vol. 3, editat n
ntregime cu ajutorul calculatorului o premier la nivel naional, primit n mod pozitiv de
specialitii din domeniu. n ceea ce privete perspectivele acestui proiect tiinific, ele sunt legate de
intenia de a dezvolta aplicaia n direcia realizrii variantei interactive, prin intermediul creia s
se poat facilita accesul on-line la baza de date a Noul atlas lingvistic romn pe regiuni (NALR)
Moldova i Bucovina. Dat fiind actualitatea acestui tip de cercetare la nivel european, precum i
avantajele evidente pe care le poate aduce lingvisticii romneti considerat n ansamblul su, se
consider c extinderea n viitor a acestei aplicaii la nivel naional i, drept urmare a acestui fapt,
punerea n circuitul tiinific prin intermediul Internetului a ntregului material lingvistic cules n
cadrul proiectului NALR poate reprezenta o miz major pentru dialectologia romneasc la ora
actual ([125]). Realizare de excepie n domeniul lingvisticii romneti, Noul atlas lingvistic romn
pe regiuni. Moldova i Bucovina, vol. 3 ilustreaz prin hrile i documentaia puse la dispoziie
evoluia limbii romne n Moldova i Bucovina, constituindu-se ntr-un instrument de lucru foarte
util pentru studenii i cercettorii din aria de activitate a filologiei ([217]).
O iniiativ similar de informatizare a atlantografiei lingvistice romneti l are ca autor pe
Dorin Uriescu, dialectolog romn stabilit n Canada, care, mpreun cu doi specialiti
informaticieni Sheila Embleton i Eric Wheeler, au realizat cercetri n ultima perioad n direcia
digitalizrii Noului Atlas lingvistic romn. Criana, atlas din care, pn la ora actual, au fost
publicate primele dou volume n format clasic. Bazndu-se pe studii recente n domeniul
dialectometriei (Hans Goebl) i al lingvisticii cantitative3, specialitii menionai i-au propus ca,
folosind tehnici statistice de genul scalrii multidimensionale ([52], [218]) (al crei principal avantaj
din punct de vedere analitic este, aa cum arta lingvistul J.K. Chambers, acela de a ignora
distanele geografice i de a reprezenta doar distanele statistice ale fenomenelor urmrite), s
realizeze o aplicaie informatic apt s ofere lingvitilor posibilitatea unor analize complexe ale
variaiei diatopice prin utilizarea unui volum mare de material lingvistic n format digitalizat
([125]).
O component major a programului informatic este aplicaia cu ajutorul creia se realizeaz
hrile interpretative, aceasta fiind poate cea mai important contribuie a autorilor n cadrul
proiectului respectiv. Folosindu-se tehnica scalrii multidimensionale, studenii i cercettorii din
2
aplicaie informatic distins n anul 2006 cu premiul Octav Mayer al Academiei Romne, Filiala Iai
Proiectul de fa, intitulat Romanian Online Dialect Atlas (RODA), se bazeaz pe experiena pe care cei doi
informaticieni au acumulat-o odat cu informatizarea Atlasului dialectal al Finlandei
3
13
aria de activitate a filologiei pot realiza, cu ajutorul unui inventar predefinit de simboluri, diferite
hri intepretative de tip dialectometric. Pornind de la acest aspect, una dintre facilitile importante
oferite de acest program informatic4 const n faptul c, odat introdus n baza de date, materialul
lingvistic va putea susine cu uurin elaborarea unor hri interpretative independente i conforme
intereselor tiinifice ale fiecrui utilizator, aceast operaiune fiind destul de dificil de realizat (sub
raport temporal i ca volum de munc) n formatul clasic al atlaselor lingvistice ([125]).
La ora actual, se lucreaz la digitizarea primelor dou volume publicate din NALR. Criana,
precum i la introducerea n baza de date a materialului pentru urmtoarele dou volume.
Ultimul proiect (n ordine cronologic) de informatizare a atlaselor lingvistice romneti
aparine specialitilor dialectologi i informaticieni din centrul academic ieean, aceast iniiativ
venind ca o continuare fireasc a experienei n domeniu acumulat de acetia de-a lungul ultimilor
ani. Proiectul poart titlul Atlasul lingvistic audiovizual al Bucovinei (ALAB), prima faz de
dezvoltare a acestuia fiind preconizat pentru anii 20102013, prin intermediul unui grant oferit de
CNCSIS ([125]).
Realizri de excepie n domeniul lingvisticii romneti, atlasele lingvistice romneti
prezentate, pe regiuni, ilustreaz, prin hrile i documentaia puse la dispoziie, evoluia limbii
romne, constituindu-se n instrumente de lucru foarte utile pentru studenii i cercettorii din aria
de activitate a filologiei.
1.4. Ontologii lexicale

Potrivit celei mai citate definiii din domeniu, cea a lui Gruber, o ontologie este o
specificaie a conceptualizrii unui domeniu ([64]). Ulterior, Guarino i Uschold au argumentat c o
ontologie reprezint o specificare explicit i parial a unui domeniu, folosind un vocabular de
termeni i o modalitate de specificare a definiiilor acestora ([65], [179]).
Termenul de ontologie a aprut prima dat n filosofie, pentru a denumi teoria asupra
existenei, mai corect spus, asupra ceea ce consider c exist cel care ntocmete teoria. Construirea
oricrui sistem filosofic pleac de la o ontologie, adic de la clarificarea problemelor referitoare la
categoriile fundamentale de entiti din realitate i a relaiilor dintre acestea ([166]).
Definiii mai recente afirm c o ontologie reprezint un catalog al conceptelor existente
ntr-un domeniu. Ontologia conine predicate, semantica termenilor i a conceptelor, precum i
relaiile dintre acestea ([154]). O ultim definiie, ce conine i definiia termenului de baz de
cunotine este dat de Noy i McGuinness ([124]). Acetia consider c o ontologie este format
din clase (concepte) i sloturi (roluri sau proprieti) i restricii pe aceste sloturi. O baz de
cunotine este format dintr-o ontologie mpreun cu un set de instane ale claselor ([139]).
Ontologiile se mpart n mai multe categorii n funcie de destinaia lor. Ontologiile de nivel
nalt sunt ontologii generale ce i propun s ierarhizeze termeni care vor aprea n orice domeniu n
vrful ierarhiei. Cele mai cunoscute astfel de ontologii sunt Cyc ([93]), Dolce ([57]) i SUMO
([122]), cea din urm fiind dezvoltat de un grup de lucru al IEEE. Ontologiile specifice unui
domeniu conin termeni i relaii particulare domeniului descris. Exemple clasice de ontologii ale
domeniului sunt ontologia vinurilor ([230]), a tipurilor de pizza ([231]), din domeniul medical
([232]), ontologia genelor ([233]) sau a proteinelor ([234]).
Aplicaia poate fi deja descrcat i testat la adresa web [219]
14
n prelucrarea limbajului natural se folosesc n ultimii ani, din ce n ce mai mult, ontologiile
lexicale. Ca i tezaurele binecunoscute n regsirea de documente, n ontologiile lexicale sunt
stocate numeroase cuvinte (n forma lor lematizat), mpreun cu relaiile semantice sau lexicale
dintre ele. Cuvintele sunt abstractizate ca uniti semantice pentru exprimarea conceptelor. ntre ele
se stabilesc relaii ierarhice (pentru indicarea termenilor mai generali i a celor specifici), de
echivalen (stabilite ntre sinonime) sau asociative (relaii care nu sunt nici ierarhice, nici de
echivalen, dar se stabilesc ntre cuvinte, iar utilizatorul le accept ca rspuns la ntrebarea sa).
Ceea ce difereniaz o ontologie lexical de un tezaur este nivelul axiomatic al descrierii
conceptelor denotate de cuvintele reprezentate. Pe lng definiie, relaiile de tip ierarhic
(hiperonim, hiponim), meronimic sau de alt natur, o ontologie lexical pune n eviden o legtur
de tip ontologic, la un concept interlingual caracterizat de o serie de definiii i axiome ([13]).
1.4.1. Wordnet
Att n cercetrile moderne de lingvistic formal, ct i cele de tehnologia limbajului,
componentei lexicale i revine o poziie central. Astfel se explic interesul crescut pentru
dezvoltarea de resurse lexicale multilingve. Studiul computaional al dicionarelor electronice,
natura informaiei ce trebuie inclus n ele i tipul de prelucrri pe are le poate facilita o anumit
structurare a unui mare volum lexical au fost fundamental influenate de proiectul WordNet ([175]).
WordNet5 ([55], [106], [107], [108]) reprezint n primul rnd o baz de date lexical
interactiv, dezvoltat n ultimii 20 de ani, pentru limba englez, la Universitatea Princeton ([211]),
de ctre un grup de cercettori condus de profesorul George Miller. n acelai timp, WordNet poate
fi privit ca un dicionar semantic, deoarece cuvintele sunt localizate pe baza afinitilor
conceptuale cu alte cuvinte, spre deosebire de cazul dicionarelor clasice, unde cuvintele sunt
ordonate alfabetic. Dei este similar unui tezaur, WordNet este mult mai util aplicaiilor
inteligenei artificiale, ntruct este nzestrat cu o bogat mulime de relaii ntre cuvinte i sensuri
ale cuvintelor, ceea ce i confer caracterul de reea semantic. WordNet este implementat n
limbajele Prolog, C i Java ([72]).
WordNet conine majoritatea substantivelor, verbelor, adjectivelor i adverbelor limbii
engleze, organizate n mulimi de sinonime numite synset-uri ([175]). Fiecare synset reprezint un
concept. Spre deosebire de dicionarele alfabetice standard, WordNet structureaz informaia
lexical n termeni de sensuri ale cuvintelor. WordNet face corespondena dintre formele tip ale
cuvintelor i sensurile acestora utiliznd categoria sintactic ca parametru. Astfel, cuvintele
aparinnd aceleiai categorii sintactice care pot fi folosite pentru a exprima acelai neles sunt
grupate ntr-un synset. Cuvintele polisemantice aparin mai multor synset-uri ([72]).
n WordNet6, relaiile semantice se stabilesc ntre cuvinte, ntre cuvinte i synset-uri, precum
i ntre synset-uri. Fiecare cuvnt intete ctre unul sau mai multe synset-uri, fiecare dintre acestea
corespunznd unui anumit sens al cuvntului respectiv. Prin urmare, diferite cuvinte pot inti ctre
5
n anul 1986, George Miller are iniiativa crerii The Princeton WordNet (PWN, [55]) i proiecteaz structura acesteia,
conceput pentru a servii la testarea teoriilor curente privitoare la memoria semantic uman. Verbele sunt adugate
reelei WordNet n anul urmrtor (1987), iar prima versiune (1.0) a acesteia este fcut publica n anul 1991. Deja la
nivelul anului 2006 se efectuau zilnic circa 8000 operaii de download ale reelei Wordnet pentru limba englez i
existau reele semantice de tip WordNet, mai mult sau mai puin dezvoltate pentru 40 de limbi.
6
n versiunea curent (versiunea 3.0), WordNet conine 155 287 cuvinte organizate prin intermediul relaiilor semantice
ntr-un numr de 117 659 sensuri, reprezentate prin tot attea synset-uri. Aceste numere sunt ns aproximative, ntruct
WordNet continu s creasc, noi caracteristici fiindu-i adugate pe parcurs. Versiunea 2.1, de pild, este prima care
ncorporeaz diferenele ntre clase i instanieri ale lor descrise n [110], ceea ce conduce la crearea unei semi-ontologii
de substantive n WordNet. Ontologia substantival reprezint, de altfel, poriunea cel mai bine dezvoltat a bazei de
cunotine WordNet ([72]).
15
un acelai sens (synset). Bogia mulimii de relaii stabilite ntre synset-uri este ceea ce face reeaua
semantic WordNet s fie att de puternic i de interesant pentru diferite tipuri de aplicaii.
Exemple de relaii semantice existente n WordNet sunt sinonimia (synonymy), folosit pentru a
forma synset-urile, hipernonimia (hypernymy)7 i hiponimia (hyponymy), corespunznd relaiei de
tip isa i respectiv relaiei inverse (reverse isa), meronimia (meronymy), corespunznd relaiei
parte-din, relaia cauzal referitoare la verbe i altele ([72]).
WordNet reprezint o baz de date lexical a limbii engleze care a fost adoptat pe scar
larg pentru o ntreag varietate de aplicaii practice din domeniul inteligenei artificiale, n general,
i din subdomeniul procesrii limbajului natural, n mod special. Muli cercettori, care utilizeaz
WordNet n domeniul inteligenei artificiale, consider c aceasta reprezint o baz de cunotine
lexical i o valorific ca atare. Procesarea cunotinelor a dobndit noidimensiuni n S.U.A.
datorit existenei WordNet. n acelai tmp, comunitatea tiinific internaional se arat extrem de
interesat de dezvoltarea unor baze lexicale de tip WordNet pentru ct mai multe limbi, n
ncercarea de a crea o infrastructur ontologic uniform ([72]).
Printre posibilele aplicaii ale WordNet8 n cele mai variate domenii se pot enumera
regsirea informaiei, extragerea informaiei, dezambiguizarea, generearea limbajului natural,
dicionarele electronice, achiziia de cunotine, nvarea cu sau fr ajutorul calculatorului sau a
reelelor de calculatoare9. mbuntirea la nivel cantitativ a wordnet-ului mai multe serii
sinonimice, mai muli literali echivalai este de maxim importan pentru aplicaiile de traducere
automat din i n limba romn, dar i pentru sistemele de e-Learning pentru nvarea limbilor
strine.
Fig. 1.7. WordNet (preluat din [211])

Un exemplu reprezentativ n acest sens este utilizarea WordNet n cadrul proiectului
LarFLaST (LeARning Foreign Language Scientific Terminology), desfurat n cadrul ICIA
(Institutul pentru Cercetri n Inteligen Artificial al Academiei Romne) ([257]). Obiectivul
7
Cu ajutorul relaiei de hiperonimie, conceptele de tip substantiv i de verb sunt structurate sub form de ierarhii. Cele
de adjectiv i de adverb au o structur diferit (cluster). n WordNet exist 11 ierarhii substantivale i 512 ierarhii
verbale. Semantica relaiei de tip isa permite unui concept s moteneasc toate proprietile hipernonimelor sale. n
plus, proprietile tipice ale unui concept sunt enunate sub form de glos ataat fiecrui concept n parte. Fiecare
glos include o definiie, una sau mai multe explicaii suplimentare i unul sau mai multe exemple ([72]).
8
Reeaua WordNet este public disponibil la adresa web [211].
9
Posibilele aplicaii ale WordNet sunt citate n peste 300 de lucrri tiinifice.
16
general al proiectului este de a dezvolta instrumente inteligente care s asiste persoanele doritoare s
nvee o limb strin, cu precdere s nvee o limb tehnic, de specialitate ([259]). Utiliznd
tehnici NLP, n cadrul proiectului este dezvoltat un sistem e-Learning inteligent de nvare a
limbilor strine care poate fi adaptat uor diferitelor limbi surs, limbi int i domeniilor tehnice
sau tiinifice (ca i limbi surs au fost luate n considerare limbile bulgar, romn i rus, ca limb
int limba englez, ca i domenii de specialitate informatica, domeniul afacerilor, iar ca i domeniu
tehnic tehnologiile comunicaiilor) ([260]). Unul dintre modulele realizate n cadrul proiectului este
sistemul bazat pe cunotine pentru identificarea, adnotarea i utilizarea metaforelor ntr-un corpus
ca suport pentru nvarea terminologiei unei limbi strine. Arhitectura sistemului este prezentat n
figura 1.8., reflectnd prelucrrile realizate de modulele componente, fluxul de informaii i
interaciunile dintre acestea. Locurile profesorului i al studentului sunt alese pentru a ilustra accesul
lor la module i la informaii, iar procesarea metaforei presupune trei activiti diferite: (1)
identificarea noilor metafore; (2) adnotarea metaforelor identificate; (3) utilizarea metaforelor
([258]).
Fig. 1.8. Arhitectura sistemului bazat pe cunotine pentru identificarea, adnotarea i utilizarea
metaforelor ntr-un corpus n scopul nvrii unei limbi strine din cadrul LarFLaST (preluat din [258])
1.4.2. EuroWordNet
La mijlocul anilor 90, datorit multiplelor aplicaii dezvoltate pe baza WordNet, a fost
puternic resimit nevoia de a se crea baze de date asemntoare i pentru alte limbi, n special
pentru cele europene. Un efort imens tiinific i financiar a fost depus n Europa Occidental,
pentru a se crea aa numita EuroWordNet (EWN), utiliznd varianta american WordNet ca model
([72]). Acest efort tiinific s-a concretizat n anul 1996, n cadrul proiectului de cercetare
dezvoltare EuroWordNet([186]), sub conducerea Universitii din Amsterdam ([213]).
Caracteristica principal a acestuia este multilingualitatea: pentru 10 din limbile europene au
fost realizate reele semantice monolingve, urmnd ca wordneturile obinute s fie corelate prin
intermediul unui index interlingual (ILI).
S-a obinut astfel o ontologie lexical multilingv, n care ILI conine reprezentrile
conceptuale ale nelesurilor lexicalizabile n limbile ce formeaz ansamblul multilingv. Fiecare
neles din oricare dintre limbile reprezentate n reeaua multilingv este pus n coresponden cu un
17
singur concept din ILI. Sinseturile din dou sau mai multe limbi care sunt n coresponden cu
acelai ILI sunt echivaleni de traducere ([175]).
Fig. 1.9. EuroWordNet (preluat din [213])
1.4.3. BalkaNet
Aprut din necesitatea acut de resurse lingvistice generale i generice ([170]), ontologia
lexical multilingv BalkaNet a fost dezvoltat n cadrul proiectului european cu acelai nume,
desfurat n perioada septembrie 2001 - august 2004 i include cinci limbi (bulgar, greac,
romn, srb, turc), plus limba ceh (al crei wordnet, nceput n cadrul proiectului EWN, a fost
mbogit ([172], [173]). Dintre partenerii romni ai proiectului enumerm ([170]):
RACAI10-Bucureti (coordonator Acad. Dan Tufi);
UAIC-Iai (coordonator Prof. Dan Cristea);
voluntari (specialiti romni) din strintate;
studeni masteranzi de la UAIC i UB;
cercettori din cadrul Cambridge Institute of Language Research (CILR) ([239]);
specialiti, membrii ai Consoriului de informatizare pentru Limba Romn ([240]).
n cadrul proiectului BalkaNet ([212]) au fost adoptate o serie de extensii conceptuale, fr

a altera compatibilitatea cu EWN. Astfel, ILI nu mai este o colecie nestructurat a sinseturilor din
Princeton WordNet (PWN), ci conine i relaiile paradigmatice sau sintagmatice existente n PWN.
n plus, ILI a fost pus n coresponden cu ontologia de nivel superior SUMO ([122]): conceptele
specifice unui domeniu au fost etichetate corespunztor, etichetele de domenii propagnda-se de la
conceptele mai generale la cele subsumate. O alt extensie adus de BalkaNet o reprezint
ncorporarea n wordneturile monolingve a cadrelor de subcategorizare pentru verbe ([175]).
Printre resursele lingvistice pentru limba romn i programele aferente folosite n
BalkaNet enumerm ([170]):
XML-DEX: codificarea automat n XML a coninutului DEX;
DIC un compilator bazat pe gramatica LL(7) lay-outa DEX-ului care a depistat o
serie de erori i inconsistene n DEX-ul tiprit (cca. 10%);
10
RACAI = Research Academical Center for Artificial Intelligence actualul Institut pentru Cercetri n Inteligen
Artificial al Academiei Romne - ICIA
18
Dicionarul bilingv En-Ro extras automat din corpusuri paralele (cu corecii i extensii
manuale ulterioare);
Dicionarul de sinonime;
Corpusurile RACAI;
Numeroase programe de prelucrare a limbajului natural (lematizatoare,
dezambiguizatoare morfo-sintactice, parsere, generatoare de cod XML, browsere etc).
Fig. 1.10. BalKaNet (preluat din [214])

Global WordNet Association (GWA) ([226]) este o organizaie public nonprofit care
ofer informaii prin discuii referitoare la WordNet, precum i accesul i conectarea ntre ele a
tuturor reelelor de tip WordNet care au fost create pentru diferite limbi. O list complet a reelelor
de tip WordNet existente la ora actual este oferit de GWA la adresa [227].
1.4.4. Wordnet-ul romnesc

Una dintre cele mai importante resurse lingvistice computaionale pentru limba romn este,
fr ndoial, ontologia lexical de tip WordNet ([55]), a crei dezvoltare a nceput, n colaborare
cu Facultatea de Informatic a Universitii Al. I. Cuza din Iai, n anul 2001, n cadrul proiectului
BalkaNet ([208]). Dezvoltarea WordNet-ului Romn a continuat la Institutul de Cercetri pentru
Inteligen Artificial i dup anul 2004 ([178]), cnd proiectul BalkaNet s-a ncheiat.
Principala strategie de dezvoltare a wordnet-ului romnesc a constat n implementarea n
limba romn a seriilor sinonimice din wordnet-ul englezesc. Pentru selectarea sinseturilor ce
urmau a fi implementate au fost urmrite criteriile ce in de acoperirea cu mcar un sens pe literal a
cuvintelor din corpusul Acquis-ului comunitar ([177]). Wordnet-ul romnesc a fost aliniat cu
Princeton WordNet (PWN), cu ontologia SUMO/MILO ([123]), precum i cu taxonomia
DOMAINS ([16]). Au fost corectate mai multe erori de mapare ntre PWN2.0 i SUMO/MILO i
DOMAINS.
Astfel, dup generarea versiunii XML a PWN2.1, alinierea wordnet-ului romnesc la noua
versiune s-a realizat folosind ca resurse WN-Map ([43]) i maparea pentru substantive i verbe
disponibil pe site-ul Princeton WordNet.
WN-Map folosete un algoritm iterativ pentru optimizarea unei funcii bazate pe un set de
criterii ce descriu un context local. Criteriile alese au fost eticheta morfologic a sinsetului, definiia
sinsetului, locul pe care l ocup acesta n ierarhie etc. De asemenea, aplicaia WN-Map mai
folosete i reguli care pot decide asupra compatibilitii sau incompatibilitii candidailor la
aliniere, reguli bazate pe criteriile enunate anterior. n cazul puinelor sinseturilor pentru care
ambiguitatea de mapare nu a putut fi rezolvat automat dezambiguizarea s-a fcut manual, de ctre
19
experii lingviti implicai n proiect ([177]).

De la finalizarea proiectului BalkaNet, dezvoltarea wordnet-ului romnesc a continuat sub
directa supervizare a Acad. Dan Tufi, astfel c n prezent ontologia lexical pentru limba romn
este printre cele mai mari din lume (conine peste 58.000 de clase de echivalen sinonimic, peste
84.500 de sensuri ale celor peste 51.600 de cuvinte distincte i mai mult de 150.000 de relaii
semantice i lexicale, nelund n considerare relaia de sinonimie care leag literalii n synset-uri),
poate cea mai complet sub aspect lexicologic (de exemplu puine wordnet-uri ale altor limbi conin
definiii, sau dac le conin, de multe ori sunt n limba englez, importate direct din wordnet-ul
original, dezvoltat la Princeton) ([209], [178]). WordNet-ul Romn poate fi accesat prin intermediul
interfeei online a MultiWordNet ([222], fig. 1.11.), n care WordNet-urile pentru cteva limbi sunt
aliniate la WordNet-ul Princeton.
O astfel de resurs lingvistic este absolut necesar sistemelor educaionale pentru studierea
morfologiei limbii romne, ct i platformelor e-Learning necesare n nvmntul preuniversitar,
universitar i postuniversitar pentru studierea limbii i literaturii romne.
Fig. 1.11. Interfaa online a MultiWordNet (preluat din [222])

n aceeai direcie se nscrie i WordNet-Affect11, resurs lexical ce conine informaii
despre emoiile pe care le transmit cuvintele. n comparaie cu WordNet-ul complet, WordNetAffect este o resurs lexical mic, dar valoroas pentru adnotarea sa afectiv. WordNet-ul Affect
([157]) a fost creat pornind de la WordNet DOMAINS ([100]). WordNet-Affect produce o ierarhie
suplimentar a etichetelor domeniilor afective, independent de ierarhia domeniilor, cu care sunt
adnotate synset-urile ce reprezint concepte afective. Cuvintele afective sunt considerate a fi
cuvintele ce au conotaie emoional ([127]). Exist cuvinte ce nu descriu direct unele emoii (de
exemplu, bucurie, tristee sau fric), dar, de asemenea, sunt legate de emoii precum cuvintele ce
descriu strile mintale, strile fizice sau trupeti, trsturile de personalitate, comportamente,
atitudini i sentimente ([20]). Astfel, toate synset-urile din WordNet-Affect au fost adnotate
utiliznd ase categorii de etichete emoionale: joy, fear, anger, sadness, disgust, surprise ([158]).
Aceast alegere a celor ase emoii a rezultat din cercetarea psihologic a emoiilor umane
exprimate nonverbal ([51]).
11
WordNet-Affect este accesibil la cerere prin intermediul interfeei online a WordNet Domains, la adresa web [223]
20
Fig. 1.12. Interfaa online a WordNet Domains, de unde se poate accesa la cerere i WordNet-Affect
(preluat din [223])
Dup ce s-au verificat toate synset-urile din WordNet-Affect, pentru crearea WordNet-Affect
pentru limba romn s-au parcurs urmtoarele etape: traducerea automat, nlturarea traducerilor
irelevante i generarea synset-urilor pentru limba romn ([20]).
Avnd capacitatea de a recunoate automat emoiile i afectele din text i putnd fi descrcat
gratuit de la [192], considerm c WordNet-Affect n limba romn este o resurs lexical care
poate fi utilizat n procesele de instruire i evaluare ale studenilor i angajailor, cu precdere n
cadrul celor care se desfoar la distan. Aceasta furnizeaz numeroase informaii importante
compensnd parte din dezavantajele datorate distanei dintre instructor i instruit.
1.5. Corpusuri
Fiind o noiune relativ nou, nu exist un consens asupra definiiei conceptului de corpus i
respectiv a clasificrii acestora. Exist, totui, o oarecare distincie fcut ntre noiunea de corpus i
cea de corpus computaional. Astfel, un corpus poate fi definit ca o colecie de piese ale limbajului,
selectate i ordonate dup un criteriu lingvistic, cu scopul de a fi utilizat ca un eantion al limbii
([170]). Pe de alt parte, un corpus computerizat este un corpus codificat ntr-un mod standardizat i
omogen cu scopul de a fi consultat ori de cte ori este nevoie, pe durat nedeterminat. Piesele de
limbaj din care este el alctuit trebuie s fie documentate n ce privete originile i proveniena
([153]).
Pentru mai mult de 20 de ani, din cei 30 de ani ai corpusurilor lingvistice, corpusul Brown a
fost considerat standard, avnd urmtoarele caracteristici ([170]):
conine 1.000.000 cuvinte;
are o distribuie aproximativ egal ntre registre si genuri lingvistice;
conine 500 de eantioane de cte 2000 de cuvinte;
eantioanele sunt extrase din texte publicate.
Mai trziu, s-au remarcat ([170]):
n anul 1985, Birmingham Collection of English Texts cuprinznd 20.000.000 cuvinte;
n 1995, Bank of English cu 200.000.000 cuvinte;
21
n 2005, un corpus comun coninnd 2.000.000.000 cuvinte.

Un corpus, n general, are o compoziie heterogen din punct de vedere lingvistic. El poate fi
mprit n sub-corpusuri care au aceleai proprieti, doar c sunt mai mici. Un corpus sau un subcorpus se compune din componeni; un component este o colecie omogen de texte selectate dup
anumite criterii lingvistice ce i asigur omogenitatea. Limbajul ilustrat de un component se mai
numete sub-limbaj ([170]).
Dintre caracteristicile corpusurilor, enumerm ([170]):
dimensiunea (mare);
calitatea (autentic);
reprezentativitate (nr. de oameni expui la limbajul din corpus);
documentare (structur, convenii, etc.).
Clasificarea corpusurilor este destul de discutabil. Exist diverse criterii de clasificare:
Corpus textual / Corpus de vorbire;
Corpus reprezentaional / Corpus experimental;
Corpus public / Corpus privat;
Corpus special:
-
Corpus literar clasificat dup: autor, gen, perioad, tem, coal etc;
Corpus cu limbajul copiilor, cu limbajul strinilor, cu limbaj dialectal etc.
Corpus de referin:
-
foarte mare;
acoper toate varietile relevante de limb i vocabularul comun al limbii;
este, de obicei, structurat ierarhic pe sub-corpusuri i componeni (exemple: ziare 50Mcuv, cri - 45Mcuv, reviste - 45Mcuv, radio - 40Mcuv, Ephemera - 1.5Mcuv,
vorbire informal - 8.5 Mcuv);
sunt n responsabilitatea unor instituii specializate ale rii respective (ex. Institutul
pentru Corpusul Limbii Cehe);
Corpus monitor:
-
introduce dimensiunea diacronic a limbajului;
este un derivat al corpusurilor de referin pentru care activitatea de ntreinere se

bazeaz pe noiunea de debit de limb reprezentnd volume constante (ex. 10
Mcuv/an-lun-sptamn) de eantioane de limbaj introduse n corpusul de referin;
deschide posibilitatea cercetrilor susinute de date obiective n domeniul evoluiei

limbii, vocabular/sintax, atestarea riguroas a importurilor neologice, etc.
Corpus paralel:
22
o colecie de texte, fiecare din ele fiind traduse n una sau mai multe limbi;
colecia textelor n fiecare limb reprezentat n corpusul paralel trebuie s

ndeplineasc criteriile unui corpus;
Corpusuri comparabile:
-
dou sau mai multe corpusuri pentru limbi diferite ce conin texte similare;
criteriile de similaritate sunt dificil de cuantificat, elementul esenial referindu-se la

sens (ex.: texte jurnalistice, texte juridice, texte comerciale etc).
23
Cap.2. Proiectul Tehnologii lingvistice pentru e-Leaning (LT4EL)
CAPITOLUL 2
PROIECTUL TEHNOLOGII LINGVISTICE PENTRU E-LEARNING
(LT4EL)
2.1. Prezentare general
Avnd n vedere marele volum de coninut static i dinamic dedicat satisfacerii cerinelor
impuse de e-Learning, dezideratul major pentru extinderea utilizrii acestui coninut este de a
perfeciona eficacitatea regsirii i accesibilitii acestuia prin folosirea sistemelor de management
al nvrii. Obiectivul proiectului Tehnologii Lingvistice pentru e-Learning (eng. Language
Technology for eLearning LT4eL) ([235]) a fost abordarea i rezolvarea acestei probleme prin
dezvoltarea i utilizarea de funcionaliti bazate pe tehnologii lingvistice i prin integrarea
coninutului semantic care mbuntesc managementul, distribuia i regsirea materialului de
nvare ([235]).
n cadrul proiectului, s-au utilizat resurse i unelte ale tehnologiilor lingvistice pentru
generarea semi-automat a metadatelor descriptive. Astfel, au fost dezvoltate noi funcionaliti,
precum un extractor de cuvinte cheie i un detector de candidai n glosar, adaptate tuturor limbilor
implicate n proiect (bulgar, ceh, englez, german, maltez, olandez, polonez, portughez i
romn) ([165]). Coninutul semantic a fost integrat ca ontologii, pentru a perfeciona
managementul, distribuia i posibilitile de cutare i regsire a materialului de nvare.
Ontologiile pot permite regsirea n context multilingv a informaiei cutate. Aceste funcionaliti
pot fi integrate n orice sistem de management al nvrii, ns n scopul validrii, n cadrul
proiectului a fost adoptat sistemul ILIAS. A fost creat o metodologie de validare adecvat
investigrii impactului acestor noi funcionaliti n cadrul nvmntului n context electronic
multilingv ([235]).
2.2. Arhitectura i etapele proiectului LT4EL

Integrarea acestor funcionaliti a facilitat construirea de cursuri specifice utilizatorilor, a
permis accesul direct la cunotine i a favorizat descentralizarea i cooperarea n managementul
coninutului didactic ([117]). n plus, proiectul a sprijinit diversitatea lingvistic a Europei lrgite,
contribuind la diseminarea cunotinelor de e-Learning printre limbile implicate n proiect, prin
crearea oportunitilor pentru comuniti virtuale de nvare n context multilingv i prin crearea de
tehnologii care s susin aceste comuniti. Arhitectura proiectului este prezentat n figura 2.1., iar
planul de lucru al acestuia n figura 2.2. ([235]).
Prima etap a LT4eL, pentru care responsabil a fost echipa romn, a constat n conceperea
i realizarea unui mediu de adugare, acces i actualizare a tuturor corpusurilor, resurselor
lingvistice i sistemelor de prelucrare ce urmau a fi dezvoltate n cadrul proiectului. n acest scop s-a
creat un portal ([236]) prin intermediul cruia au fost colectate de la nceputul proiectului (dec.
2005) resurse, totaliznd aproape 9 milioane de cuvinte i 30 aplicaii dezvoltate integral n cadrul
proiectului sau adaptate necesitilor proiectului ([137]). n aceast etap iniial de formare a
corpusului romnesc s-au colectat documente din 14 domenii convenite n cadrul proiectului,
domenii ce in de predarea informaticii, pedagogie i organizarea studiului universitar. Un prim
nivel de adnotare propus a fost XML (Extensible Markup Language) ([237]) cu marcaje de
24
formatare a documentului, format definit de un DTD (Document Type Definition) general ([137]).
Fig. 2.1. Arhitectura proiectului LT4eL (preluat din [235])
Fig. 2.2. Planul de lucru al proiectului LT4eL (preluat din [235])

Dup transformarea ntregului corpus n format XML, etapa a doua a fost cea de adnotare
lingvistic n care s-a realizat: segmentarea n uniti lexicale, propoziii, fraze i paragrafe,
marcarea informaiilor morfo-sintactice, a formelor de baz (leme) ale cuvintelor flexionate,
marcarea grupurilor nominale. n acest scop au fost utilizate urmtoarele instrumente ([137]):
tokenizator (marcator de uniti lexicale de baz), dezvoltat de UAIC12;
POS-tagger (adnotator morfo-sintactic), adaptat dup o implementare ICIA13;
lemmatizer (marcator de rdcini morfologice neflexionate), realizat la ICIA;
12
13
Universitatea Al. I. Cuza, Iai

Institutul de Cercetri pentru Inteligen Artificial, Academia Romn, Bucureti
25
NP-chunker (marcator de grupuri nominale), dezvoltat de echipa UAIC, utiliznd un

corpus adnotat manual pentru a genera un set de reguli, ce au fost apoi revizuite n parte
nainte de a fi utilizate de marcatorul de grupuri nominale.
Cele patru module de procesare de mai sus obin rezultate foarte bune pentru limba romn.
10
Tokenizator-ul i POS-tagger-ul obin scoruri F-measure de aproximativ 98% ([174]),
Lemmatizer-ul obine un scor F-measure14 de aproximativ 95%, iar NP-chunker-ul aproximativ
75%. Evalurile pentru instrumentele ICIA au fost preluate din documentaia aplicaiilor, iar pentru
cele dezvoltate la UAIC au fost calculate automat utiliznd un corpus standard adnotat manual.
Corpusul colectat pentru limba romn conine 56 de documente nsumnd aproximativ
700.000 cuvinte ([74]).
A treia etap a proiectului a avut ca scop mbogirea Sistemului de Management al nvrii
(ILIAS) cu cunotine semantice, i anume cu ontologii, pentru a mbogi organizarea i regsirea
obiectelor de nvare interlingve. Ontologiile faciliteaz construcia de cursuri specifice fiecrui
utilizator, prin interogri semantice dup domeniul de interes; mbuntesc crearea de coninut
personalizat i permit descentralizarea i cooperarea managementului coninutului, precum i pentru
regsiri multilingve ([235]).
Aceast etap a constat n marcarea manual i automat a cuvintelor cheie (cuvinte sau
expresii pe care utilizatorul unui sistem de coordonare a nvrii le folosete pentru a cuta
documente ce fac referire la acea noiune ([74]) i a definiiilor din corpus, relevante pentru
domeniul general al proiectului. Motivul acestei duble adnotri a fost acela de a permite ulterior
compararea lor n scopuri de evaluare a adnotrii automate ([165]).
Toate cuvintele cheie (uniti lexicale formate fie dintr-un singur cuvnt, fie din expresii
multi-cuvnt) au fost traduse din celelalte 8 limbi n englez, centralizate i sortate, obinndu-se
astfel colecia lexical, ca prim pas n construirea unei ontologii generale pentru domeniile de
interes ale LT4eL15 ([137]). Acestea au fost marcate (semi)automat de creatorii obiectelor de
nvare; utilizatorii sistemului de nvare folosesc cuvintele cheie pentru a gsi documentele care
conin referiri la anumite noiuni. Din acest motiv cuvintele cheie trebuie s fie reprezentative
pentru obiectul de nvare din care provine, s rezume subiectul textului sau s fie un obiectiv
central al documentului. n adnotarea cuvintelor cheie s-a avut n vedere i posibilitatea ca aceleai
noiuni s fie uneori referite prin sinonime n acelai text ([165]).
n ceea ce privete adnotarea automat a acestora, n proiect s-au implementat trei metode
pentru extragere a cuvintelor cheie: TF/IDF, Residual IDF (RIDF) i o versiune ajustat a RIDF
(RIDF este nmulit cu rdcina ptrat a frecvenei termenilor) ([165]). Programul realizat n acest
scop de cei implicai n proiect are capacitatea s genereze un model de limb, folosind fiierele
adnotate manual, i aplic acest model pe restul documentelor ([91]).
Pentru adnotarea manual a definiiilor, s-a neles prin definiie o explicaie concis, o
descriere a nelesului sau tipului unui concept. O definiie are dou pri: un termen definit i
un context de definire ([74]).
Pentru adnotarea automat a definiiilor din obiectele de nvare, soluia abordat n
14
Calculat ca 2*P*R/(P+R), unde P (precizia) = numrul de obiecte corect identificate de program raportat la numrul
de obiecte identificate de program i R (recall) = numrul de obiecte corect identificate de program raportat la numrul
de obiecte existente ([137])
15
Formatul convenit pentru realizarea ontologiei a fost DOLCE ([238]). ntr-o etap ulterioar, forma final a acestei
ontologii i lexiconul aferent au fost mapate integral la Princeton WordNet ([211]), lucru ce va permite integrarea ei cu
alte ontologii de domenii, cum ar fi SUMO, dar i utilizarea ei n cadrul altor proiecte ([137])
26
cadrul proiectului LT4eL a fost dezvoltarea de gramatici locale pentru cele 9 limbi ale proiectului
care s surprind abloane de definiii. Dintre dificultile majore ntlnite de cei implicai n
acest proces amintim evidenierea diferitelor metode de a exprima definiiile, pstrnd o lexicalizare
minim a cuvintelor care introduc definiiile (precum verbele a fi, a reprezenta etc.). Alte
probleme au fost definiiile ntrerupte i marcherul de terminare a unei definiii, n special n
cazul n care acesta nu coincide cu semnele de punctuaie ([74]).
Informaia lingvistic din definiiile marcate automat a fost folosit ca punct de plecare n
identificarea posibilelor abloane. Cercetrile anterioare n acest domeniu au artat c
gramaticile locale bazate pe abloane sintactice sunt foarte utile atunci cnd analiza semantic
lipsete ([119], [96]).
Crearea gramaticii pentru limba romn a nceput cu descrierea unor reguli simple i
aplicarea acestora pentru definiiile extrase manual. Observnd n mod repetat erorile, s-a
mbuntit gramatica pentru a trata toate cazurile. Dup cum susin cei ce au rspuns de aceast
etap a proiectului, dezavantajul acestei metode este c gramatica a devenit dependent de corpus
([74]).
Astfel, definiiile au fost clasificate n ase categorii cu scopul de a reduce spaiul de cutare
i complexitatea regulilor. Tipurile de definiii identificate n textele romneti au fost
clasificate dup cum urmeaz ([74]):
1. is_def definiii coninnd verbul a fi;
2. verb_def definiii introduse de verbe specifice, diferite de a fi. Verbele
considerate pentru limba romn sunt a indica, a arta, a preciza, a reprezenta, a
defini, a specifica, a consta, a fixa, a permite;
3. punct_def definiii introduse de semne de punctuaie precum cratima -,
paranteze rotunde (), virgula , etc;
4. layout_def definiii care pot fi deduse din aranjarea n pagin: aici pot fi
incluse tabelele n care termenul definit i definiia sunt n celule separate sau
termenul definit este cuvnt titlu i definiia este pe alt rnd;
5. pron_def definiii anaforice, cnd termenul definit este prezent
propoziie anterioar i el este doar referit n definiie, de obicei prin pronume;
ntr- o
6. other_def alte tipuri de definiii, care nu pot fi incluse n nici una din
categoriile anterioare. n aceast categorie sunt construcii care nu folosesc verbe pentru
introducerea termenului, ci construcii specifice precum adic.
Aplicaia lxtransduce prezentat n ([162]) a fost folosit pentru a identifica n fiiere
XML definiiile descrise n gramatica romneasc. n gramatica pentru limba romn au fost
create reguli pentru fiecare tip de definiie din cele prezentate anterior i o regul principal
folosit pentru a apela regulile individuale. Toate aceste reguli au fost construite pe baza
observaiilor fcute asupra definiiilor adnotate manual ([74]).
Construirea gramaticii folosite pentru extragerea definiiilor romneti a nceput cu
construirea unor reguli simple care identific prile de vorbire. Aceste reguli au fost
combinate pentru a se obine reguli mai complexe. Dup crearea regulilor care identific diverse
structuri se apeleaz regulile care identific definiii. Un alt tip de regul a fost cea care
poate idetifica sfritul definiiei ([74]).
Folosind lxtransduce ([162]) s-au identificat poriunile din fiier care corespundeau unei
27
reguli i s-au marcat corespunztor acele zone ca fiind definiii. Pentru fiecare tip de definiie,
precizia i recall au fost calculate n dou moduri: la nivel de cuvnt i la nivel de propoziie
([26]). La nivel de cuvnt, precizia a fost neleas ca fiind numrul de cuvinte care se
gseau n acelai timp n definiiile adnotate manual i n cele identificate automat, mprit
la numrul de cuvinte din definiiile identificate automat. Corespunztor acestei formule, recall sa calculat ca fiind raportul dintre numrul de cuvinte gsite n cele dou tipuri de definiii i
numrul total de cuvinte din definiiile adnotate manual. La nivel de propoziie, s-a considerat
c o propoziie face parte dintr-o definiie manual sau automat dac i numai dac ea conine o
parte dintr-o definiie manual sau automat. n acest caz, precizia i recall au fost
calculate asemntor valorilor calculate la nivel de cuvnt ([74]).
Conform membrilor proiectului care au rspuns de execuia lucrrilor din aceast etap a
proiectului ([74]), rezultatele cele mai bune au fost obinute pentru definiiile care au fost
identificate folosind verbe (majoritatea cazurilor). Dintre acestea, definiiile introduse de verbul
a fi au fost cel mai greu de identificat, deoarece acest verb aprea foarte frecvent n limba romn
i astfel au fost luate n considerare foarte multe cazuri care nu reprezintau definiii.
Etapa a patra a proiectului n discuie a avut ca scop integrarea de noi funcionaliti n
Sistemul de Management al nvrii (SM) ILIAS. Totodat, datorit modularitii noilor resurse
dezvoltate, documentaia care va fi pus la dispoziie va permite integrarea i n alte sisteme SM
open-source, datorit modularitii noile resurse dezvoltate. Adnotarea metadatelor, cutarea bazat
pe ontologii i navigarea va permite asamblarea coninutului individual pentru diferii e-instruii,
precum i direcii de nvare individuale ([235]).
Validarea noilor funcionaliti n SM-ul ILIAS s-a realizat n etapa a cincea a proiectului.
Scopul acestui pachet de lucru a fost s evalueze ([235]):
utilizarea funcionalitilor noi;
utilizarea platformei i a modului n care a fost afectat de integrarea noilor
funcionaliti;
impactul pedagogic al integrrii funcionalitilor.
Obiectivele propuse au fost realizate prin intermediul urmtoarelor activiti ([235]):
dezvoltarea unei metodologii de validare corecte pentru un SM;
pregtirea de experimente i chestionare;
experimente i chestionare pilot;
experimente de execuie i chestionare;
comparaie analitic a cazurilor de utilizare prevzute n proiect i cele realizate n
practic de grupul demonstrativ de utilizatori;
raportarea rezultatelor.
De diseminarea, transferul i popularizarea pe larg a rezultatelor programului s-a ocupat a
asea etap a proiectului, avnd urmtoarele grupuri int ([235]):
utilizatori finali n universiti: studeni i profesori;
comunitatea tiinific;
28
autoritile din educaia naional.

Activitile care s-au desfurat n acest etap au fost ([235]):
organizare de ateliere de lucru;
organizare de evenimente de premiere;
organizare panourilor pentru utilizatori;
crearea unui portal Web multilingv;
scoaterea pe pia a abordrii dezvoltate pentru alte comuniti care a dezvoltat SM
open-source;
dezvoltare unui plan de exploatare;
diseminarea rezultatelor prin canale diferite;
crearea unei liste pentru coresponden i pentru nouti.
Ultima etap a proiectului, respectiv a aptea etap, a avut ca obiectiv managementul i
coordonarea general a execuiei proiectului, incluznd legaturile dintre parteneri i legtura cu
Comisia European. Activitile ntreprinse pentru atingerea acestui obiectiv au fost ([235]):
stabilirea structurii manageriale;
legtura cu Comisia European privind chestiuni contractuale i financiare;
realizarea aranjamentelor contractuale i financiare cu partenerii;
realizarea legturilor ntre conductorii pachetelor de lucru, coordonarea i sprijinul
conductorilor de pachete de lucru;
pregtirea rapoartelor de activitate i de management pentru Comisia European;
pregtirea declaraiilor de cost pentru Comisia European;
organizarea ntlnirilor proiectului;
organizarea evalurii proiectului.
29
Cap.3. Proiectul Tehnologii lingvistice pentru nvarea continu (LTfLL)
CAPITOLUL 3
PROIECTUL TEHNOLOGII LINGVISTICE PENTRU NVAREA
CONTINU (LTfLL)
3.1. Aspecte generale
nvarea mbuntit cu ajutorul tehnologiei (eng. Technology-enhanced Learning TEL)
devine din ce n ce mai rspndit n lumea educaiei. Astfel, se impun un numr nsemnat de
schimbri de ctre tehnologia nsi, cum ar fi accesul la instrumentele necesare, utilizarea i
optimizarea utilizrii acestora, precum i datorit problemelor de interoperabilitate, n cazul cnd se
utilizeaz diferite instrumente i dispozitive. Cu toate acestea, din ce n ce, instrumentele produse cu
ajutorul acestor tehnologii, i ne referim aici n principal la cele de coninut, au devenit o adevrat
provocare. Cantitile imense de coninut digital produs solicit noi strategii inovatoare i modaliti
diverse de a le manipula, n scopul de controla volumul de munc, att pentru tutori, ct i pentru
cursani, concomitent cu mbuntirea nelegerii a ceea ce a fost produs i contribuie la atingerea
obiectivelor de nvare ([228]).
Gasirea unor noi modaliti inovatoare pentru a aborda aceasta nou provocare este una
dintre ambiiile proiectului Tehnologii lingvistice pentru nvare continu (eng. Language
Technologies for Lifelong Learning LTfLL).
Obiectivele de referin ale proiectului sunt ([228]) :
1. s ajute oamenii s nvee ;
2. s ajute tutorii i profesorii s sprijine cursanii.
LTfLL este un proiect IST - FP7 EU STREP ce i propune dezvoltarea unei noi generaii de
servicii de asistare i recomandare, n vederea mbuntirii proceselor de construire a
competenelor, att individual, ct i colaborativ, i de creare a cunotinelor n contexte
educaionale sau n organizaii. Pentru dezvoltarea serviciilor sale, proiectul folosete tehnologii de
prelucrare a limbajului natural i de modelare i prelucrare socio-cultural i cognitiv. n cadrul
proiectului, activitile de cercetare sunt mpletite cu activiti de stabilire a fundamentelor prin
proiectarea cazurilor de utilizare i a scenariilor realiste din punct de vedere pedagogic, care s
conduc activitile de proiectare i de implementare a serviciilor i s ghideze procesul de validare
o infrastructur tehnic pentru crearea i integrarea serviciilor i a structurii de validare care s
permit o evaluare riguroas n condiii realiste i de funcionare multilingv ([229]).
LTfLL este ndreptat spre obiecte bazate pe text i utilizeaz diferite tehnologii lingvistice
pentru a le analiza i a oferi un feedback despre ele utilizatorilor. n cadrul proiectului au fost create
o serie de scenarii de relevan pedagogic care scot n eviden anumite probleme particulare
ntlnite n lucrul cu textul digital. Acestea se ncadreaz n zona de poziionare a instruitului i a
progresului lui, acestuia oferindu-i-se un feedback calitativ n ceea ce privete crearea textului,
extragerea de cunotine i partajarea lor ([228]).
Rezultatele obinute n cadrul proiectului mai sus menionat sunt prototipuri ale serviciilor
noii generaii bazate pe cercetare avansat, prin aplicarea tehnologiilor lingvistice n educaie.
Exploatarea acestora ntr-o pia de consum depinde la rndul ei de dezvoltarea, utililizabilitatea,
transferabilitatea acestora ctre alte domenii i alte medii de nvare etc. (vezi fig. 3.1.) ([228]).
30
Fig. 3.1. Utilizarea tehnologiilor lingvistice n educaie n cadrul proiectului LTfLL (preluat din [228])
Grupurile int, ca persoane vizate, din cadrul LTfLL, pot fi grupate n trei categorii ([228]):
1. Cercettori i dezvoltatori, persoane interesate n dezvoltarea ulterioar a serviciilor
LTfLL cu scopul de a crea produse de consum. Este vorba de dezvoltarea PLN prin
aplicaii n alte domenii, crearea unor noi servicii bazate pe tehnologiile limbajului
natural i integrarea i personalizarea acestora pentru mediile de utilizare specifice;
2. Furnizorii de servicii de coninut, persoane specializate care asigur suport organizatoric,
logistic i tehnic;
3. Utilizatorii finali ai serviciilor LTfLL, utilizatorii efectivi ai aplicaiilor LTfLL, i anume
curani de orice vrst, studeni i/sau profesori din diverse organizaii de nvmnt,
coli, reele de coli, universiti, companii i departamente de resurse umane, furnizori
de servicii de training etc.
3.2. Serviciile furnizate n cadrul proiectului LTfLL

Serviciile dezvoltate n cadrul LTfLL utilizeaz tehnologia pentru nelegerea i analizarea
datelor disponibile, i anume eseurile i blog-urile instruiilor, conversaiile acestora pe platforme
chat i forumuri. Scopul acestora este de a sprijini utilizatorii n procesarea acestei mari cantiti de
date, ntr-un mod ct mai rapid i mai performant, prin furnizarea unor aplicaii prietenoase n
format widget. Dintre serviciile furnizate de LTfLL enumerm ([228]):
1. LeaPos (Leaner Positioning Service);
2. Conspect (Service for Monitoring Conceptual Development);
3. PolyCAFe (Chat & Forum Analysis and Feedback System);
4. PenSum (Online Synthesis Advisor);
5. FLSS (Formal Learning Support System Course Editing Service);
6. iFLSS (Informal Learning Support Service to Locate Content and Peers);
7. LTfL Annotation Tool;
8. LTfLL Short Thread;
9. LTfLL Long Thread.
31
3.2.1. LeaPos (Leaner Positioning Service) din cadrul LTfLL

Primul dintre serviciile enumerate anterior, LeaPos, efectueaz o analiz calitativ i
cantitativ a textelor instruiilor (eng. knowledge poor approach), pentru a da o msur a
similaritii i potrivirii ntre limbajul utilizat de instruit i limbajul utilizat de ctre comunitatea de
practic de care instruitul se strduiete s aparin. Analiza calitativ presupune marcarea
expresiilor extrase din textele aparinnd rspunsurilor date de instruii la seturile de ntrebri
aparinnd cursurilor selectate de acetia, n conformitate cu caracteristicile distinctive de utilizare a
acestora, prin compararea frecvenelor lor n textele de calitate ridicat i redus clasificate de
experi. Utilizatorii pot verifica vizual expresiile marcate. Analiza cantitativ utilizeaz date,
precum numrul de apariii al acestor expresii, pentru a calcula msura n care cuvintele furnizate de
instruit, n rspunsul dat de el, se potrivesc n raport cu limbajul comunitii de practic. Utilizatorii
acestui serviciu pot interpreta rezultatele calitative i cantitative pentru a evalua poziia instruitului,
pentru a decide ce uniti de curs trebuie instruitul s studieze n continuare i unde are acesta
nevoie de sprijin suplimentar. Utiliznd texte reprezentative (ex.: manuale, texte considerate de
referin de ctre experii n domeniu), LeaPos construiete un corpus de referin, folosit pentru
a deduce un set de concepte relevante n raport cu informaiile cerute n ntrebarea la care instruitul
trebuie s rspund. Pentru a ajuta experii n construirea acestui corpus, serviciul analizeaz
statistic materialele (sub form de text) de nvare i sugereaz care dintre acestea ar trebui
adugate corpusului. Textele corpusului sunt clasificate i marcate, apoi, n funcie de aria de
expertiz. Utiliznd aceste texte, pentru fiecare text dat de instruit, se obine o analiz cantitativ,
msurnd distana dintre acesta i toate textele din corpusul de referin. n plus, nafar de
abordarea anterioar (knowledge poor approach), utiliznd o ontologie, este calculat i gradul de
acoperire al textului dat de instruit, numrndu-se cte concepte asociate din ontologie sunt gsite i
n textul instruitului (abordarea respectiv fiind denumit knowledge rich approach). Ca rezultat
al acestei abordri se obine un procent de acoperire. Aceast analiz a acoperirii conceptuale a
textului instruitului implic utilizarea ontologiei i lexicalizri ale conceptelor aparinnd acestei
ontologii (ex. fraze extrase prin intermediul analizei calitative) pentru a numra cte concepte
relevante au fost gsite n textul instruitului. n cele din urm, dup examinarea rezultatului
serviciului, utilizatorii pot trece n revist lista materialelor de instuire din corpusul de referin.
Tutorii pot utiliza rezultatele pentru a decide ce materiale trebuie s studieze instruitul i n care arie
de cunotine conceptuale instruitul are nevoie de sprijin n continuare. De asemenea, instruiii i
pot evalua singuri cunotinele i i pot identifica punctele tari i punctele slabe ([228]).
Principalele faciliti ale serviciului LeaPos, prezentate succint n fig. 3.2., sunt ([228]):
1. Adaug materiale de nvare repozitoriului;
2. Creaz chestionare;
3. Clasific rspunsurile;
4. Construiete prototipuri de corpusuri de text pentru a evalua cunotinele instruiilor.
Sistemul implementeaz un (sub)sistem de management a textului construind
(semi)automat un corpus de text pornind iniial de la un corpus mic. De asemenea,
marcheaz i adnoteaz textul (rspunsurile instruitului) adugnd din repozitoriul
disponibil texte corpusului;
5. Colecteaz rspunsurile intermediare ale instruiilor (instruiii furnizeaz rspunsurile
la ntrebri, iar acestea sunt clasificate de cel puin doi tutori);
32
6. Antreneaz serviciul, n sensul c acesta utilizeaz datele furnizate pentru a antrena

procesul de clasificare;
7. Task-ul de poziionare (instruitul rspunde la chestionar, serviciul rspunde cu
feedback-ul coninnd sugestii, iar tutorele decide pe baza acestora ce uniti trebuie
s parcurg instruitul i metoda de nvare pentru fiecare unitate, potrivit pentru el).
Fig. 3.2. Prezentarea Leaner Positioning Service din cadrul LTfLL (preluat din [228])
3.2.2. Conspect (Service for Monitoring Conceptual Development) din cadrul LTfLL
n practica educaional modern, nvarea continu este un amestec ntre oportuniti
formale i informale, punndu-se accent n ambele cazuri pe autonvarea independent. Aceasta
este ncapsulat n mediile de nvare aparinnd locurilor de munc unde traiectoriile de nvare
reflect interaciuni ale instruiilor cu colegii de studiu i cu experi din domeniu, dar i cu clienii
(ex.: pacieni, instruii sau clieni). n astfel de circumstane complexe, pentru instruii i tutorii lor
este dificil uneori s decid cum poate un individ oarecare stpnii anumite subiecte cheie i cum
poate el aplica acestea n viaa cotidian. Prin urmare, autonvarea necesit suport prin intermediul
feedback-ului formativ, iar o problem care ar trebui rezolvat este cum s adune i s evalueze
probele pe care feedback-ul ar putea s se bazeze.
Conspect a fost conceput pentru a oferi un mijloc prin care dezvoltarea conceptual a
cursantului poate fi monitorizat, iar feedback-ul este furnizat prompt i eficient. Printr-o analiz
automat a textelor oferite de cursani, Conspect monitorizeaz acoperirea conceptual a subiectelor
din text printr-o comparaie cu altele, acumulate anterior, identificnd deficienele, ideile
preconcepute, dar i oportunitile de nvare n curs de dezvoltare ale instruiilor. Sunt utilizate
artefacte textuale (att pentru cursani individuali, ct i pentru grupuri de instruii), cum ar fi eseuri
sau blog-uri, pentru a stabili un model vizual, o conceptograma a modului cum cursanii refer
concepte. Astfel, cursanii sunt n msur s compare propriul modelul cu un model de referin
identificnd diferenele dintre ele sau cernd ajutor de la tutore. Acest lucru permite cursanilor s-i
monitorizeze parcursul educaional n timp. Utiliznd rezultatele furnizate de Conspect, tutorii pot
observa dezvoltarea conceptual a instruiilor i a grupurilor de instruii ([228]).
33
Funcionalitile serviciului Conspect sunt orientate (vezi fig. 3.3.) ([228]):

n ajutorul cursantului:
-
caut un anumit subiect n spaiul URL;
ofer ajutor;
sunt prezentate modele de referin;
se pot crea/modifica modele personale (se pot aduga probe, se pot vizualiza
reprezentri, se pot salva versiuni curente);
poate face versiunea curent public (adugnd date la modelul grupului);
compar versiunea anterioar cu versiunea curent;
compar versiunea curent cu modelul de referin;
compar versiunea curent cu modelul grupului;
n ajutorul profesorului:
-
creaz/modific un model de referin;
genereaz subiecte;
selecteaz participani i subiecte;
compar reprezentrile subiectelor.
Fig. 3.3. Prezentarea Monitoring Conceptual Development (CONSPECT) din cadrul proiectului
LTfLL (preluat din [228])
34
3.2.3. PolyCAFe (Chat & Forum Analysis and Feedback System) din cadrul LTfLL
n ultimii ani, pentru a completa practicile tradiionale de nvare, instituiile educaionale
utilizeaz la scar larg internetul, tehnologiile web i mediile colaborative. Prin intermediul
interaciunilor cursanilor (individuali sau organizai n grupuri), tutorii i profesorii pot determina
nivelul de cunotine al acestora dintr-un anumit domeniu i capacitatea lor de a le aplica. Totui,
ceea se ntmpl n aceste interaciuni nu poate fi ntotdeauna controlat de ctre profesori, care, de
obicei, se concentreaz pe rezultatele proceselor de colaborare. Evaluarea contribuiilor individuale,
moderarea sau furnizarea feedback-ului relevant cu privire la calitatea acestor interaciuni web, n
ceea ce privete att coninutul, ct i colaborarea nsi ntre participani pare s consume foarte
mult timp i ncrctur cognitiv ([228]).
Computer Supported Collaborative Learning (CSCL) consider chat-ul drept elementul
central, din ce n ce mai utilizat n mediile academice, pentru susinerea procesului de nvare
colaborativ ([155]). Astfel, chat-ul a fost introdus n educaia formal i este totodat folosit de
ctre studeni n rezolvarea diverselor probleme, n dezbateri, cu scopul de a-i spori cunoaterea
ntr-un anumit domeniu i de a nva de la interlocutorii lor. Mai mult, chat-ul poate fi folosit de
ctre profesori n evaluarea studenilor lor. La ora actual exist foarte puine sisteme de analiz
automat i de generare de feedback pe baza istoricului conversaiei. Explicaia este dat de faptul
c pentru a evalua o discuie n profunzime este nevoie de prelucrarea limbajului natural, iar
tehnologiile existente n analiza lingvistic nu sunt nc suficient de mature, n special n domeniul
analizei conversaiilor de tip chat, domeniu care prezint dificulti suplimentare fa de analiza
textelor convenionale ([140]).
Soluie pentru problemele ridicate mai sus, sistem validat i dezvoltat n cadrul proiectului
FP7 LTfLL ([228]), PolyCAFe este unul dintre acestea i se bazeaz pe o integrare de diverse
metode de prelucrare a limbajului natural (Natural Language Processing NLP) ([9], [10], [94]),
analiza reelelor sociale (Social Network Analysis SNA) ([47], [168], [37]), analiz semantic latent
(Latent Semantic Analysis LSA), precum i metode specifice de data-mining i de regsire de
informaii ([169]).
Sistemul PolyCAFe sprijin tutorii i cursanii n analiza colaborrii ntre instruii, n
activitile individuale n echipele virtuale din care fac parte. El furnizeaz diferite informaii i date
cantitative i calitative cu privire la discuiile cursanilor n cadrul chat-urilor sau forum-urilor
(valori despre importana relativ a fiecrei replici, despre gradul de implicare n colaborare, efectul
social a ceea ce spun acetia etc.) i rezultate ale analizei coninutului replicilor acestora (ex.:
acoperirea conceptelor cheie care se doreau a fi discutate sau pstrarea firelor de dicuie). PolyCAFe
ofer feedback-ul vizual despre interaciunile i participarea social a cursanilor. Vizualizarea
conversaiei i a forum-ului este interactiv, ceea ce nseamn c instruiii i tutorii pot expora
perspective i fire ale discuiei diferite, pot vizualiza legturi descoperite de sistem ntre replici sau
mesaje, pot vedea irul utilizrii diferitelor concepte ([228]).
Figura 3.4. prezint arhitectura sistemului PolyCAFe, precum i modul de comunicare ntre
module. Funcionalitile cheie ale sistemului PolyCAFe sunt grupate (vezi fig. 3.5.) ([228]):
n scopul asistrii utilizatorilor pentru:
-
configurarea cursului (selectarea limbii i a domeniului);
furnizarea unor parametrii de configurare adiionali;
ncrcarea instruciunilor de notare i feedback;

35
configurarea sarcinilor (forum i chat);
atribuirea de tutori pentru grupurile de chat i forum-uri;
crearea de grupuri de studeni (pentru chat introducndu-se roluri, concepte cheie i

caracteristici asociate pentru a fi discutate);
n ajutorul cursanilor pentru:

-
selectarea sarcinii;
ncrcarea replicilor n chat;
ncrcarea n baza de date a firelor de discuie n cadrul forum-ului;
analizarea chat-ului;
analizarea mesajelor din forum-ul de discuie;
cutarea anumitor concepte n cadrul forum-ului;
obinerea n mod automat a feedback-ului prin analiza textului din discuii, vzute ca
un ntreg, sau din anumite replici sau mesaje (pentru fiecare cursant);
obinerea unui feedback automat grafic;
vizualizarea grafic a discuiei;
obinerea unui feedback final de la tutore;
n scopul evalurii contribuiei cursanilor pentru:

-
realizarea unui raport statistic despre forum;
analizarea vizualizrii grafice a discuiei;
editarea automat a feedbak-ului i a notrii;
efectuarea de statistici i rapoarte.
Fig. 3.4. Principalele module ale sistemului PolyCAFe de analiz i feedback din cadrul
proiectului LTfLL (preluat din [169])
36
Fig. 3.5. Prezentarea sistemului PolyCAFe din cadrul proiectului LTfLL (preluat din [228])
Analiza din spatele sistemului PolyCAFe este derivat din polifonie i este centrat pe trei
concepte interdependente ([140], [10]):
1. replici poriuni de text ale cror limite sunt reprezentate de schimbarea subiectului
de discuie ([9]) i care nglobeaz elemental principal deanaliz din discuie.
Acestea exprim acte de comunicare ([94]), ct i evoluia conversaiei din
perspectiva dezvoltrii ei continue. n analiza propus ([140]), se ader la perspectiva
de separare a replicilor propus de Dong ([47]), n care introducerea unui punct nou
de vedere sau a unei intervenii din partea unui alt participant segmenteaz discursul,
schimbnd perspectiva proprie a vorbitorului. ntre replici pot exista dou tipuri de
legturi: implicite i explicite (fig. 3.6.). Participanii pot aduga legturi explicite pe
parcursul sesiunii de chat folosind o facilitate oferit de mediul de conversaie
utilizat (in acest caz, ConcertChat). Legturile implicite sunt identificate automat
prin intermediul co-referinelor, repetiiilor, lanurilor lexicale, tiparelor de interanimare i similaritii semantice ([169]). Pe baza acestor dou tipuri de legturi ntre
replici se construiete graful de replici, utilizat n cadrul evalurii ([167]), graf
aciclic, orientat, n care nodurile sunt replici, iar ponderile arcelor sunt date de
similariti ntre replici multiplicate cu ncrederea asociat fiecrei legturi (valoare
predefinit atribuit n funcie de metoda de detecie a legturii). Orientarea fiecrui
arc este dat de evoluia n timp a discuiei;
2. voci poziii distincte, puncte de vedere cu impact asupra conversaiei ([168]),
perspective sau topice ([94]) aparinnd unui singur participant sau a unui grup ai
cror membrii partajaz idei similare. Un anumit individ poate personaliza, exprima
i adera la diferite voci prin interaciunea sa cu ali indivizi. Totodat, vocile generale
integreaz pe lng vocile personale i vocile exterioare ale altor indivizi, voci care
37
exprim influena celorlali asupra opiniei proprii. O replic poate deveni o voce i
poate ncorpora ecourile unor voci precedente ([9]);
3. ecouri replicri ale vocilor n timp, cu o putere suficient de mare pentru a influena
alte voci n unul sau mai multe contexte. Pot fi identificate dou tipuri de ecouri:
ecouri individuale, cnd participantul personalizeaz o voce, i ecouri colective, cnd
mai muli participani reacioneaz la o voce, mbogind contextul. Ecourile vocilor
curente pot influena replicile ulterioare i pot, de asemenea, modela vocile personale
ale fiecrui participant.
Fig. 3.6. Cele dou tipuri de legturi dintr-un chat (preluat din [168])
Dup identificarea i analizarea conceptelor de baz, n cadrul PolyCAFe, au fost identificate
i considerate dou efecte majore ([140]):
1. efectul retrospectiv sinergetic, bazat pe vocile care se suprapun i se ntrees ntr-o
manier polifonic ale replicilor precedente. Astfel, ecourile lor modeleaz i
influeneaz replica curent ntr-un context dat;
2. efectul prospectiv exprim implicaii viitoare n firul de discuie cu privire la
propriul ecou i perspectiv n contextul considerat, subliniind natura impredictibil
i maleabil a unei discuii.
Din punct de vedere tehnic, PolyCAFe este constituit dintr-o serie de procesri, pe diverse
dimensiuni ([140]):
1. Componenta cantitativ este asigurat cu ajutorul software-ului NLP realizat la
Standford ([242]), cu excepia spell checker-ului (care utilizeaz Jazzy ([243]) i
[244]), i presupune realizarea de procesri specifice prelucrrii limbajului natural
([168], [169]). (Conform [140], sunt n construcie dou alternative de realizare a
38
acestei componente NLP care integreaz modulele de la GATE ([245]) i LingPipe

([246])):
-
verificarea ortografiei (eng. spelling correction);
eliminarea cuvintelor irelevante (eng. stop-words), emoticoanelor (ex.: :)),

abrevierilor speciale utilizate (ex.: brb, np, thx) i a altor cuvinte considerate
irelevante n aceast etap;
aducerea la rdcin (eng. stemmer);
tokenizarea (eng. tokenizer). Pentru identificarea sensurilor cuvintelor din chat este
utilizat ontologia lexical WordNet (http://wordnet.princeton.edu). Aceasta este
organizat ca un graf a crui celul de baz o reprezint synset-ul. Un synset este o
mulime de sinonime. Un cuvnt poate avea sensuri multiple i poate aparine mai
multor synseturi. Synseturile sunt legate ntre ele prin relaii ca hiponimie,
hypernimie, holonimie, meronimie;
recunoaterea entitilor denumite (eng. named entity recognizer);
adnotarea cu etichete morfo-sintactice (eng. POS tagger);
analizarea sintactic de suprafa (eng. chunker);
determinarea numrului de caractere pentru fiecare rdcin;
determinarea numrului de apariii pentru fiecare concept;
identificarea topicelor din chat, prin unificarea conceptelor candidate descoperite n

chat. (Aceast etap aste realizat utiliznd lista de sinonime pentru fiecare concept
astfel: dac un concept din chat apare n lista de sinonime a altui concept, atunci
listele de sinonime ale celor dou concepte sunt unificate. n acest moment, frecvena
conceptului rezultat este adugat frecvenelor celor dou concepte unificate. Lista
conceptelor astfel obinut este considerat ca fiind lista topicelor conversaiei,
ordonat dup frecvena lor.);
2. Componenta calitativ presupune:

-
determinarea similaritii semantice, avnd ca baz LSA;
msurarea completitudinii replicilor, utiliznd topice predefinite;
urmrirea evoluiei firului de discuie cu privire la impactul viitor n cadrul discuiei

i, respectiv, la coerena sa intern;
evaluarea gradului de relevan a replicii, msurat prin impactul su asupra

discursului;
3. Componenta social const n realizarea unei analize a reelelor sociale aplicat

asupra grafului replicilor.
Sarcinile principale ale sistemului presupun ([140]):
39
analiza de coninut care identific principalele concepte ale chat-ului sau forumului
utiliznd modulul NLP pipe (vezi fig. 3.4.) ([169], [168]);
identificarea actelor de vorbire: o mulime derivat din DAMSL ([195]) i tipurile de
argumentare din replici ([160]);
detectarea legturilor implicite folosind ([169]):
-
repetiiile (de cuvinte obinuite sau entiti denumite) care au fost identificate de
Tannen ca fiind foarte importante n implicarea participanilor n conversaie ([160]);
lanurile lexicale care identific relaiile dintre cuvinte de pe acelai nivel cu ajutorul
msurilor de similaritate semantic bazate pe WordNet;
perechile de adiacen ([78], [145]) clasificate n [168] de mai multe categorii:

a. coninnd cupluri de replici care se succed logic (ex.: ntrebare-rspuns);
b. cuprinznd replici de salut (eng. greeting-greeting);
c.
perechea de adiacen propus pentru matematic (eng. math proposal

adjacency pair), clas special de adiacen identificat n CSCL de ctre
Stahl, alctuit din dou pri: prima parte, n care un individ face o cerere
grupului, a doua parte, cnd alt individ al grupului i rspunde acceptnd sau
refuznd cererea ([155]) ;
coreferine, pentru care este utilizat sistemul BART ([183], [247]).
definirea modelelor de inter-animare (eng. inter-animation patterns) clasificate n [168]

n mai multe categorii:
-
perechile de adiacen ([145]) ;
repetiiile;
vorbirea cumulativ (eng. cumulative talk) ([105]), sau cu cuvintele lui Sacks, replici
colaborative (eng. collaborative utterances), situaie n care mai muli participani
rostesc mpreun o fraz, ca i o singur persoan ([146]);
convergena, n cazul n care o replic leag dou fire de discuie avnd topice
diferite ([141]);
evaluarea replicilor;
analiza colaborrii bazat pe graful replicilor i pe scorurile asociate acestora.
Rezultatul acestor calcule genereaz feedback pe cteva nivele distincte:

pentru fiecare replic din conversaie;
pentru fiecare participant;
pentru conversaia luat ca ntreg.
40
Trsturile replicilor din cadrul conversaiilor studenilor sunt obinute utiliznd informaiile
([140]):
1. lexicale: sunt calculate metrici de suprafa pentru toate replicile unui participant n
vederea determinrii unor factori precum fluena n vorbire, ortografie, dicie sau
structura replicii ([129], [241]), care, combinai liniari, duc la obinerea unui scor
parial pentru fiecare participant. (Inafara factorilor obinui din studiile lui Page,
proxe-uri aproximri ale intereselor realizate de calculator i trins-uri variabile
intrinseci, msuri date de evaluatori umani, folosite pentru evaluare, n cadrul acestui
nivel este aproximat i lizibilitatea uurina cu care o persoan poate parcurge i
nelege discuia purtat ([241]). Acest ultim factor luat n calcul are un rol important
ntruct cercetrile n domeniu arat c un text uor de citit de ctre audien are un
mare impact asupra nelegerii, reinerii, vitezei de citire i a persistenei informaiilor
citite;
2. sintactice: la acest nivel se realizeaz analiza morfologic bazat pe verificarea
ortografiei, aducerea la rdcina comun, tokenizare i etichetarea prilor de vorbire
([102]);
3. semantice, printr-o evaluare semantic folosind LSA care presupune construirea unui
spaiu de vectori ([84], [109], [188]). Prin aplicarea funciei cosinus se evalueaz
importana unei replici pe baza similaritii semantice dintre replic i ntreaga
discuie, aceast similaritate evalundu-se inndu-se cont de un set predefinit de
topice care se caut s fie acoperite n cadrul discuiei. (n scopul aplicrii LSA se
definete o matrice termen-document utilizndu-se un corpus de chaturi, adnotat
automat cu prile de vorbire corespunztoare; respectivei matrici i se aplic Tf-Idf
(frecvena termenilor inversul frecvenei documentelor), apoi descopunerea n
valori singulare (SVD) i proiecia spaiului dup k dimensiuni, unde k este
determinat empiric, avnd valoarea 300, aproximativ egal cu rdcina ptrat a
numrului de concepte existente n spaiul antrenat ([41]).
Pornind de la teoria dialogismului i a polifoniei i utiliznd o multitudine de procedee
pentru a evalua replici, participani i gradul de colaborare, PolyCAFe este un sistem care ofer
feedback i suport pentru cei care folosesc discuiile de tip chat sau forum n activitile de nvare.
Rezultatele obinute n urma testrilor i rundelor de validare a sistemului permit o evaluare global
a contribuiei unui participant, ntr-o conversaie purtat ntr-un mediu colaborativ, n care factorul
subiectiv este eliminat aproape n totalitate.
n capitolul 5 vom prezenta o trecere n revist a principalelor sisteme de analiz a
interaciunilor la nivelul conversaiilor de tip chat sau forum, de evaluare a contribuiilor
individuale, moderare sau furnizare a feedback-ului relevant cu privire la calitatea acestor
interaciuni web, n ceea ce privete att coninutul, ct i colaborarea nsi ntre participani, altele
inafara celor create n cadrul proiectului LTfLL.
3.2.4. Pensum (Online Synthesis Advisor) din cadrul LTfLL
n numeroase situaii educaionale, instruiii trebuie s realizeze anumite rapoarte sub form
de text (ex.: rezumate, eseuri, sinteze) despre noiunile nvate. Problemele cu care ei se confrunt
sunt perioadele lungi de timp necesare obinerii feedback-ului i oportunitile limitate ale acestuia
care nu-i stimuleaz pe parcursul crerii rapoartelor, ci i foreaz s le predea finalizate. n timpul
scrierii unui text, este dificil s-i autoevaluezi munca pentru a identifica posibilele greeli.
41
Profesorul poate avea o imagine limitat de ansamblu asupra progresului instruiilor i poate afla
despre anumite probleme specifice prea trziu.
Soluie pentru problemele ridicate anterior, serviciul Pensum vine n sprijinul cursanilor cu
scopul de a le evalua automat eseurile (rezumatele, sintezele), cu scopul de a permite profesorilor s
se concentreze pe activiti de nivel mai nalt (de ghidare individual a instruiilor sau de proiectare
a cursurilor). Pensum analizeaz modul n care instruiii au nteles cursurile, evalund textele
eseurilor instruiilor. Serviciul furnizeaz un feedback rapid cu privire la activitile de scriere ale
cursanilor n curs de desfurare (analiznd relevana exemplelor scrise, coerena sintezelor)
([228]).
Funcionalitile cheie ale serviciului Pensum sunt grupate (vezi fig. 3.7.) ([228]):
n scopul asistrii utilizatorilor:
-
definirea domeniului cursului;
adugarea textelor cursurilor;
antrenarea sistemului;
atribuirea fiecrui instruit la domeniul cursului corespunztor;
n ajutorul cursanilor:
-
dup selectarea domeniului cursului, fiecare cursant poate scrie o nou sintez n
domeniul cursului respectiv sau poate citi/revizui o sintez deja scris;
cursanii pot solicita, apoi, feedback-ul (automat) cu privire la sinteza realizat sau
scrie ntrebri ntr-un notepad (aceste posibiliti sunt valabile permanent i cursantul
poate trece liber de la o obiune la alta);
feedback-ul (automat) este furnizat ntr-o form textual (pe ecran, sub form de
sfaturi) sau grafic (prin sublinierea unor fraze din sintez sau curs). Particularitatea
serviciului n discuie este c, n orice moment, cursantul poate s cear feedback n
legtur cu orice punct de vedere. Un feedback negativ (vizualizat cu o icoan de
culoare roie) este furnizat ntr-unul din urmtoarele trei situaii:
1. incoeren ntre frazele textului;
2. ieirea nafara subiectului;
3. anumite idei din curs care nu se regsesc i n sinteza lui (chiar dac serviciul nu
poate determina dac un anumit subiect din curs este important sau nu);
dup obinerea feedback-ulului (automat), cursantul i poate mbunti sinteza,

corectnd textul, refuznd punctul de vedere al feedback-ului sau adugnd anumite
fraze;
Pensum nu este doar un instrument prin care se obine un feedback automat. El poate
fi utilizat i pentru a stoca feedback-ul uman (ntr-un notepad) relativ la sintezele
realizate de cursani (acest notepad este o zon special a serviciului n discuie care
nu face obiectul unei analize automate a coninutului sintezelor cursanilor, fiind
folosit doar pentru a aduna comentariile i sugestiile profesorilor n legtur cu
textele scrise de cursani);
42
textul cursurilor, sintezele i coninutul notepad-ului sunt stocate ntr-o baz de date;
pentru obinerea feedback-ului se utilizeaz modele cognitive i computaionale i

tehnica LSA.
Fig. 3.7. Prezentarea sistemului Pensum Online Synthesis Advisor din cadrul proiectului LTfLL
(preluat din [228])
3.2.5. FLSS (The Formal Learning Support System Course Editing Service) din cadrul LTfLL
Profesorii care proiecteaz sau adapteaz cursuri au insuficiente instrumente care s-i ajute
s gseasc care sunt cele mai adecvate materiale de nvare destinate cursanilor.
Sistemul de asistare a nvrii formale (eng. The Formal Learning Support System
FLSS), ca parte a Cadrului semantic comun (eng. Common Semantic Framework CSF), ofer
variate funcionaliti de navigare i cutare. O simpl cutare a unui text returneaz documente cu
un grad variabil de relevan. Cutarea semantic ofer mai multe rezultate relevante, prin utilizarea
a diferite formulri ale conceptului cutat i prin exploatarea relaiilor semantice implicite din text.
Navigarea n ontologia domeniului respectiv ajut profesorul s-i organizeze taxonomic
curriculum-ul. Materialele de nvare n FLSS sunt adnotate automat. Utilizatorii pot cuta aceste
texte cu concepte i contexte adnotate i, astfel, pot compila manual un curriculum, un glosar sau un
test ([228]).
FLSS ofer pe lng un repozitoriu de obiecte de nvare (tutoriale, cursuri, materiale, teste
etc.) i faciliti de navigare i cutare a conceptelor. Un profesor poate ncepe cutarea unor
materiale sau poate s doreasc s gseasc anumite sensuri pentru anumite topice ncepnd cu
navigarea n ontologia domeniului pentru a obine un set adecvat de concepte. Ontologia este
accesibil i ca un ntreg, dar i n pri tematice specifice n acest scop. n ambele cazuri, prin
utilizarea unor cutri variate n principal de text i semantic i prin navigarea n ontologia
43
domeniului, profesorul poate alege materiale pentru a le include n curs. n plus, profesorul poate
obine rezultate bazndu-se i pe similaritatea dintre obiectele de nvare, poate aduga, de
asemenea, documente n repozitoriu. Aceste documente vor fi adnotate automat. Succesiunea de
adnotri cuprinde: segmentarea la nivel de cuvnt, analiz lingvistic NLP, adnotare gramatical a
conceptelor, coreferina relaiilor. Adnotarea documentelor i ontologia pot fi utilizate pentru
cutarea semantic i contextual, prin structurare dup context sau prin realizarea glosarelor i
testelor pentru cursani. Adnotarea coreferenial mbuntete gradul de acoperire i precizia
adnotrii conceptelor, fcnd, astfel, rezultatele cutrilor mai informative i mai la obiect ([228]).
Funcionalitile cheie ale serviciului FLSS sunt grupate pentru (vezi fig. 3.8.) ([228]):
pregtirea utilizrii serviciului:
-
CSF ruleaz ca un background pentru FLSS, utiliznd ca resurse:

1. ontologia domeniului;
2. gramatica conceptual a limbii int;
3. repozitoriul obiectelor de nvare;
adnotare a documentelor;
cutarea documentelor;
interfa orientat utilizator;
procesarea unui document nou pentru a putea fi adugat n repozitoriu:

-
adnotarea automat a documentului cu concepte i coreferine;
suport pentru adnotarea semi-automat a imaginlor;
suport pentru adnotarea semi-automat a discursului;
cutarea materialelor de nvare n interiorul repozitoriului:

-
cutare bazat pe text;
cutare semantic;
combinarea celor dou cutri anterioare;
navigarea n ontologie prin:

1. vizualizarea arborelui;
2. vizualizarea hrii conceptelor;
3. vizualizarea listei conceptelor;
niruirea documentelor;
preluarea rezultatelor:
-
concepte sau fragmente de text cu contexte;
documente regsite n funcie de similaritatea lor;

44
comentarea i manipularea materialelor de nvare:

-
adugarea manual a comentariilor;
editarea, tergerea, adugarea i combinarea manual a fragmentelor de text.
Fig. 3.8. Prezentarea The Formal Learning Support System (FLSS) din cadrul proiectului LTfLL
(preluat din [228])
3.2.6. iFLSS (The Informal Learning Support Service to Locate Content and Peers) din cadrul
LTfLL
De obicei, cursanii au probleme atunci cnd sunt nevoii s caute anumite materiale
necesare realizrii unor task-uri de nvare. Mai ales pentru nceptori este dificil de identificat care
dintre resursele gsite sunt de calitate i care nu. n plus, adesea, cursanii lucreaz individual pentru
c nici profesorii, nici colegii nu sunt disponbili tot timpul pentru a le oferi sprijn.
CSF sprijin prile interesate n identificarea, preluarea i schimbul de materiale relevante
de instruire pentru atingerea task-urilor de nvare date. CSF include FLSS (fig. 3.8.) i iFLSS (fig.
3.9.). iFLSS sprijin procesul de descoperire de cunotine prin intermediul unei ontologii
mbogite cu vocabularul comunitii de practic (eng. Community of Practice CoP), precum i
prin recomandarea de materiale avnd la baz coninut, etichete i utilizatori aparinnd CoP-ului.
Comunicarea este facilitat prin utilizarea reelelor sociale, iar comunitile de cursani pot fi create
cu ajutorul recomandrilor furnizate de sistem ([228]).
Funcionalitile cheie ale serviciului iFLSS sunt grupate (vezi fig. 3.9.) ([228]):
pentru pregtirea utilizrii serviciului, prin:

-
definirea subiectului;
45
selectarea unui fragment din ontologie;
mbogirea fragmentului pe baz de etichete;
preluarea de date de pe sait-urile reelelor sociale;
n slujba cursanilor: pentru a gsi coninut relevant de date pentru sarcina lui de nvare,
mbunindu-i cunotinele din domeniul subiectului cutat, cursantul poate utiliza
ontologia aparinnd CSF. Cursantul poate utiliza funcia de navigare n cadrul acesteia
pentru a prelua documente. nafara acestui mod de cutare bazat pe navigare, cursantul
poate cuta materiale relevante n alte dou moduri:
-
prin cutare semantic pe baza ontologiei domeniului subiectului respectiv;
cu ajutorul reelei sociale i etichetelor ataate la resurse; n acest mod, inafara

documentelor nsi, sistemul furnizeaz date de contact ale persoanelor din cadrul
reelei sociale care ar putea ajuta cursantul n atingerea task-urilor sale.
Diferitele posibiliti de cutare sunt valabile, iar cursantul poate s aleag liber una
dintre ele, n funcie de nevoile sale. Ontologia, etichetele, adnotrile i link-urile ctre
resurse sunt toate stocate ntr-un repozitoriu semantic.
Fig. 3.9. Prezentarea The Informal Learning Support System (iFLSS) din cadrul proiectului
LTfLL (preluat din [228])
3.2.7. Annotation Tool din cadrul LTfLL

Proiectul LTfLL ofer i un instrument de adnotare (eng. Annotation Tool) care ajut
profesorii s-i pregteasc textul pentru analiz, prin furnizarea unui serviciu semi-automat de
authoring care adnoteaz i eticheteaz cuvintele i expresiile din text. Adnotrile expresiilor din
text corespund conceptelor dintr-o anumit ontologie. Adnotarea automat este fcut prin
intermediul unei corespondene ntre ontologia respectiv i text care ofer un mecanism prin care
46
sunt explicate informaii conceptuale din text. Corespondena respectiv dintre ontologie i text este
realizat cu ajutorul ([228]):
unei ontologii a domeniului din care face parte textul de analizat;
unui lexicon;
unei gramatici de adnotare a conceptelor avnd la baz gramatici regulate prin
intermediul crora se gsesc conceptele lexicalizate din text crora li se asigneaz
concepte apropiate din ontologie.
Dup adnotarea automat, profesorii pot realiza adnotarea manual. Adnotarea realizat pe
aceast cale poate fi utilizat pentru cutarea semantic necesar pentru o utilizare ulterioar a
materialelor de nvare.
Fig. 3.10. Interfaa Annotation Studio din cadrul proiectului LTfLL (preluat din [228])
3.2.8. Short Thread din cadrul LTfLL
Instrumentul numit Short Thread din cadrul LTfLL integreaz serviciul de poziionare
LeaPos i instrumentul de adnotare Annotation Tool n Sistemul de Asisten formal de nvare
FLSS. Acesta faciliteaz lexicalizarea semi-automat a ontologiei LeaPos n interiorul FLSS, n
timp ce LeaPos adaug i stocheaz lexicalizrile care lipsesc, necesare pentru o adnotare
mbuntit i automat a materialelor de nvare i a rspunsurilor. mpreun cu noua abilitate de
a adnota ntrebri cu conceptele descoperite n materiale didactice, aceast nou funcionalitate
permite tutorilor LeaPos s construiasc i s ofere un feedback conceptual formativ prin
intermediul unei interfee intuitive. Experii FLSS n prelucrarea limbajului pot decide care dintre
noile lexalizri sugerate de LeaPos pot fi integrate in ontologie, sprijinind mentenana ontologiei.
47
Fig. 3.11. Interfaa Short Thread din cadrul proiectului LTfLL (preluat din [228])
3.2.9. Long Thread din cadrul LTfLL
Serviciul Long Thread a fost conceput ca o demonstraie a mbuntirii din punct de vedere
pedagogic realizate prin combinarea a patru dintre serviciile LTfLL ntr-un singur mediu de nvare
personal (eng. personal learning environment PLE). Se poate considera un scenariu n care un
student vorbitor de limba englez n domeniul IT ar trebui s rspund la o ntrebare (ex. Ce este
Web 2.0?) Pentru a localiza potenialele resurse de nvare, acesta poate utiliza serviciul iFLSS.
Apoi, el are la ndemn PenSum pentru a scrie sau a mbunti o sintez. Sinteza completat este
ncrcat n Conspect, care ofer o conceptogram i o list de concepte. Dac utilizatorul selecteaz
unul din conceptele, Conspect trece automat conceptul n iFLSS, care furnizeaz ulterior resurse de
nvare din surse cum ar fi YouTube sau BibSonomy. Un tutore poate alege apoi cteva concepte i
s solicite cursanilor s discute despre ei n forumuri sau grupuri de chat. n cele din urm,
PolyCAFe ajut n analizarea acestor discuii.
Fig. 3.12. The Long Thread din cadrul proiectului LTfLL (preluat din [228])
48
Cap.4. Utilizarea rezoluiei anaforei n e-Learning
CAPITOLUL 4
UTILIZAREA REZOLUIEI ANAFOREI N E-LEARNING
4.1. Rezoluia anaforei
n multe aplicaii de prelucrare a limbajului natural, cum ar fi traducerea automat,
abstractizarea automat, rezumarea automat, dar i instruirea asistat de calculator, inclusiv eLearning, un rol vital l are rezoluia anaforei.
Anafora este un fenomen studiat att de lingvistica computaional, ct si de cea clasic, ce a
atras atenia multor cercettori n ultimii ani. Teorii i formalisme cum ar fi teoria centrelor, teoria
structurilor retorice au inspirat noi cercetri legate de rezoluia automat a anaforei. n plus,
aplicaiile orientate spre cercetare ca abstractizarea automat, extragerea de informaii au identificat,
independent, importana rezoluiei anaforei. Anafora este o relaie de referin, n text, ntre dou
entiti. Cele dou elemente ale textului care particip n anafor se numesc expresii refereniale
([73]).
n literatura de specialitate, anafora a fost definit n mai multe moduri, ca fiind:
relaia dintre un termen (numit "anafor") i un altul (numit "antecedent"), cnd
interpretarea anaforului este ntr-un anumit mod determinat de interpretarea
antecedentului" ([98]);
relaia dintre dou elemente din text care denot acelai obiect" ([138]);
"n majoritatea textelor obiectul aflat n discuie este mentionat de mai multe ori, iar ceea
ce este nou introdus n text este legat ntr-un fel sau altul de ceea ce s-a discutat deja.
Menionrile ulterioare ale unei entiti pot avea sau nu aceeai form de suprafa. Exist
o ntreag clas de expresii numite expresii anaforice sau expresii refereniale utilizate
pentru a indica elementele aflate n corelaie. Ele mai sunt considerate i entiti lexicale."
([44]).
Anafora poate fi de mai multe tipuri, cele mai uzuale fiind:
anafora coreferenial care este cea mai comun, n care entitatea referit n contextul
universului de discurs este aceeai pentru ambii termeni;
anafora funcional, numit i anafora text ([66]) sau anafor sau referin de legtur
([31]), dac anaforul si antecedentul refer entiti distincte, dar aflate ele nsele ntr-o
anumit relaie.
Rezoluia anaforei (eng. Anaphora Resolution AR) este procesul de determinare a
antecedentului unui anafor. Aceasta este o problem provocatoare i necesit o cantitate mare de
cunotine ca suport - de la informaii morfologice, lexicale i sintactice, la informaii semantice,
despre structura discursului i reguli pragmatice.
Rezoluia automat a anaforei presupune urmtoarele etape:
identificarea anaforilor ai cror antecedeni trebuie gsii. n acest scop s-au remarcat
algorimii lui Lappin i Leass ([86]), avnd ca variant algoritmul lui Denbers ([45]),
49
algoritmii lui Paice i Hush ([131]), al lui Evans ([53], [54]), Bean i Riloff ([14]), Vieira
i Poesio ([185]), Muoz ([132]);
gsirea candidailor, domeniu n care s-au remarcat abordrile lineare ale lui Kennedy &
Bogureav ([81]), Mitkov ([115], [116]), Kameyama ([80]), precum i modele de cutare
ierarhice, cum ar fi modelul lui Cristea bazat pe teoria nervurilor ([34], [92]);
selecia antecedentului dintr-o mulime de candidai pe baza factorilor de rezoluie a
anaforei, prin intermediul unor unelte i resurse: dicionare, analizoare morfologice,
marcatoare pentru partea de vorbire. Cele mai utilizate reguli pentru realizarea acestei
etape sunt: acordul n numr i gen, restricii semantice, paralelismul sintactic i
semantic. Unele reguli pot elimina diferite grupuri nominale din mulimea de candidai
posibili (constrngeri bazate pe acordul n gen sau numr) numindu-se reguli
eliminatoare, altele specific faptul c unii candidai au mai multe anse s fie
antecedentul cutat dect ali candidai (reguli bazate pe focus, paralelism) i se numesc
reguli cu scor. A treia categorie de reguli este aceea a regulilor confirmatoare care gsesc
antecedentul. Toate cele trei categorii de reguli utilizate mpreun pot identifica
antecedentul. Aplicarea unei singure reguli (eliminatoare, confirmatoare sau cu scor) nu
conduce la gsirea antecedentului. Regulile interacionaz ntre ele ducnd fie la
mbuntirea, fie la scderea performanei algoritmului. Acest fenomen de dependen nu
a fost nc complet investigat, dar poate juca un rol important n procesul de rezoluie a
anforei. Informaii despre gradul de dependent sunt, n special, utile modelelor
probabilistice i se sper s ajute la mbuntirea rezultatelor.
4.2. Rezoluia anaforei n e-Learning

Referindu-ne la importana AR n domeniul instruirii asistate de calculator, respectiv n eLearning, AR i-a dovedit utilitatea n rezolvarea de exerciii i probleme n scopul ntririi
cunotinelor acumulate de ctre studeni, n evaluarea asistat de calculator i alte subdomenii ale
e-Learning.
Printre primele cercetri n domeniul utilizrii rezoluiei anaforei n domeniul instruirii
asistate de calculator s-a remarcat sistemul STUDENT realizat n anul 1964 de ctre Babrow
([256]). Este una din primele ncercri de rezolvare a anaforei de ctre un program de calculator,
fiind un sistem de rezolvare de probleme de algebr de liceu. STUDENT ncearc s gseasc
anaforii i antecedenii folosind pattern-matching ([73]).
Evaluarea asistat de calculator (eng. Computer Assisted Assessment CAA) este domeniul
care studiaz cum calculatorul poate fi utilizat pentru evaluarea cunootinelor studenilor. Unul
dintre subdomeniile acestuia, care n ultimul timp atrage mult atenie, este cel care se bazeaz pe
evaluarea rspunsurilor acestora sub form de text ([135]). Acest lucru este o sarcin complex,
nc departe de a fi rezolvat. Tehnicile pe care se bazeaz sistemele care ncearc s rezolve
aceast problem sunt clasificate de ctre Prez n urmtoarele categorii ([136]):
tehnici statistice: acestea se bazeaz pe analize statistice care lucreaz cu frecvena
cuvintelor sau cu analiza semantic latenta (LSA) (ex.: Landauer [85]);
tehnici de categorizarea textelor (eng. Text Categorization Techniques TCT): rspunsul
studentului poate fi clasificat ca i corect sau greit, sau de o categorie ntre acestea dou,
50
pe o scar a gradelor (ex. incorect, mediu, bun, foarte bun). TCT, ex. reelele bayesiane,
pot fi aplicate n acest caz ([87]);
tehnici de extragere a informaiei (eng. Information Extraction IE) ([33]): acestea sunt
utilizate de sistemele care cer ca informaia sub form de text s fie structurat, cum ar fi
dependenele ntre concepte, aa cum este n sistemul Automark ([112]);
tehnici de procesare a limbajului natural (eng. Natural Language Processing NLP):

tehnicile NLP, cum ar fi parsarea sau analiza retoric, pot fi utilizate pentru obine mai
mult informaie despre rspunsul studentului. Un exemplu de sistem care utilizeaz
tehnici NLP este C-rater ([23]);
nsumare (eng. clustering): gruparea eseurilor care au modele similare de cuvinte pentru a
forma un cluster cu acelai scor. Aceast abordare a fost urmat de Sistemul Inteligent de
Marcarea Eseurilor realizat de Ming ([111]);
compararea reelelor semantice: tehnic recent introdus de Lutticke n anul 2005 ([99])
care const n compararea reelei semantice obinut din rspunsul studentului cu reeaua
semantic a modelului dat de instructor. Aceast tehnic a fost utilizat n sistemul MRW
([99], [203]);
abordri hibride: acestea combin tehnicile anterioare pentru a mbunti rezultatele
obinute. De exemplu, E-rater ([22]) i Atenea ([3]) utilizeaz tehnici statistice i tehnici
NLP.
Chiar dac tehnicile anterioare sunt att de diferite, ideea general utilizat n toate aceste
sisteme este aceeai: se compar rspunsul studentului (sau rspunsul candidat) cu un rspuns ideal
al instructorului (sau un rspuns de referin). Cel mai apropiat rspuns obine scorul cel mai mare.
Printre tehnicile NLP folosite pentru a mbunti evaluarea automat a rspunsurilor
ntrebrilor deschise se gsete i AR. Acest fenomen, constnd n referirea la o entitate menionat
nainte, este foarte comun n limbajul scris ([184]). Mai mult, are aplicabiliti i n alte domenii
([35]).
Referindu-ne la sistemele de CAA prin evaluarea rspunsurilor deschise sub form de text
care utilizeaz AR, acestea compar rspunsul dat de student cu rspunsurile referin date de
profesori. Prin urmare, sistemele nu sunt capabile s evalueze ca fiind corect un rspuns dac
cuvintele sau expresiile utilizate de student i de profesor sunt diferite. Aceast problem este
rezolvat de sisteme n dou moduri ([135]):
prin reducerea paradigmelor att din textele de referin date de profesor, ct i din textul
rspunsului dat de student; de exemplu, prin eliminarea tuturor pronumelor i a anumitor
NP definite, utiliznd AR;
prin mrirea mulimilor de referine cu paradigme alternative; spre deosebire de prima
metod, aceasta se aplic doar rspunsurilor date de profesor; acest lucru poate fi realizat
manual cernd profesorilor s scrie rspunsuri alternative pentru aceeai ntrebare sau
automat prin mbogirea textului cu sinonimele cuvintelor utilizate, spre exemplu, sau
prin utilizarea AR.
n categoria sistemelor CAA de evaluare a rspunsurilor scurte date de studeni, n care este
utilizat AR, se ncadreaz i sistemul Atenea ([3]). Testat pentru limbile englez i spaniol i uor
adaptabil altor limbi, acesta proceseaz rspunsurile studenilor i ale profesorului utiliznd tehnici
NLP i instrumente wraetlic ([2]):
51
aducerea la rdcin (eng. stemming);

eliminarea cuvintelor clasate nchise (eng. closed-class words);
dezambiguizarea sensurilor cuvintelor (eng. Word Sense Desambiguation).
n cadrul sistemului Atenea a fost utilizat motorul RARE (Robust Anaphora Resolution
Engine) care permite proiectarea, implementarea i evaluarea diferitelor modele multilinguale de
AR pe texte. n RARE, informaia este organizat pe trei nivele, conform figurii 4.1. ([135]):
1. la nivel de text: acest nivel este format din cuvinte ce formeaz discursul i este populat
cu expresii refereniale (eng. referential expression RE);
2. la nivel de proiectare: acest nivel stocheaz informaii despre modul n care se gsesc
RE-urile n structurile caracteristice numite structuri de proiectare (eng. projection
structures PSs) care determin care dintre ele sunt corefereniale;
3. nivelul semantic: RE-urile reprezint entiti din lumea real. Sensurile RE-urilor sunt
prelucrate n nivelul semantic sub forma entitilor de discurs (eng. Discourse Entities
DEs).
Fig. 4.1. Nivelele RARE (preluat din [135])
Indiferent de limb, pentru a putea fi utilizat n RARE, componentele de baz ale oricrui
model AR sunt ([135]):
un set de atribute primare: indicnd informaii morfologice, sintactice, semantice sau de

poziie;
un set de resurse de cunotere: cum ar fi un tagger morfologic sau un extractor NP pentru

a completa atributele primare, pentru a fi stocate n PSs;
un set de euristici sau reguli: pentru fiecare RE, acestea decid dac aceasta se refer la o
nou DE sau la una care exista deja;
un domeniu de referenialitate: acesta spune unde, cte i n ce ordine trebuie verificate
DE-urile determinate la nivelul anterior.
Rezoluia anaforei este, de asemenea, deosebit de important i n alte domenii dect eLearning, domenii care, prin ceea ce se ocup, pot ajuta n instruirea asistat de calculator,
respectiv n e-Learning.
Astfel, interpretarea anaforei este vital pentru succesul oricrui sistem de traducere
automat, att de necesar n nvarea unei limbi strine. n particular, cnd se traduce dintr-o
limb n care pronumele are forme diferite pentru fiecare gen n alt limb n care acesta nu are
52
forme diferite, este esenial gsirea relaiilor anaforice. Doar un numr limitat de sisteme de
traducere automat reuesc s traduc cu succes un discurs, nu doar propoziii izolate, pentru c nu
rezolv problema anforelor. Rezultate ncurajatoare legate de rezoluia anaforei pentru traducerea
automat au fost obinute n cadrul unor proiecte conduse de Wada n anul 1990 ([187]), Leass &
Schwall n 1991 ([89], [90]), Nakaiawa n 1994 ([120]), Saggion & Carvalho n 1994 ([147]),
Mitkov n 1997 ([113], [114]), Geldbach n 1999 ([59]).
Relaia de coreferin are un rol important i pentru extragerea de informaii, important i
ea n e-Learning. n 1999, Al-Kofani et al. au realizat un sistem ce folosete rezoluia anaforei
pentru extragerea i prelucrarea de informaii ([4]).
n domeniul sumarizrii textelor, de asemenea cu aplicaii n e-Learning, tehnicile de
extragere a propoziiilor mai importante au rezultate mai bune dac sunt folosite i relaii
anaforice. Lanurile coreferentiale i coreferina au fost folosite pentru abstactizare. Baldwin &
Morton n 1998 ([11], [12]), Azzam, Humphreys & Gaizauskas n 1999 ([7]) descriu tehnici de
sumarizare a textelor folosind lanurile corefereniale.
Gsirea automat a rspunsurilor la ntrebri, util n instruirea asistat de calculator, este
ajutat mult de gsirea coreferinelor. n 1999, Morton ([118]) a reuit s gseasc rspunsuri la
ntrebri prin stabilirea de legturi corefereniale ntre entitile i evenimentele din ntrebri i cele
din document.
53
Cap.5. Alte proiecte semnificative
CAPITOLUL 5
ALTE PROIECTE SEMNIFICATIVE
n ultimii ani, datorit dezvoltrii NLP, printre numeroasele aplicaii ale acestuia se regsesc
i cele din cadrul e-Learning, cu precdere din e-evaluare i nvarea colaborativ. n cele ce
urmeaz sunt prezentate aspecte ale utilizrii NLP n cadrul CAA, urmate de o trecere n revist a
celor mai reprezentative sisteme CAA de evaluare a cunotinelor studenilor prin intermediul
notrii rspunsurilor acestora sub form de text utiliznd NLP. n continuare, vor fi prezentate o
serie de sisteme CSCL de analiz a interaciunilor la nivelul conversaiilor de tip chat sau forum
prin utilizarea tehnicilor NLP, altele dect cele prezentate n capitolul 3, mpreun cu trsturile lor
caracteristice.
5.1. Sisteme CAA de evaluare a rspunsurilor sub form de text ale studenilor,
utiliznd NLP
Muli cercettori consider c evaluarea joac un rol central n procesul educaional. n
ultimii ani, interesul n dezvoltarea i utilizarea sistemelor de evaluare bazate pe calculator (eng.
Computer-based Assessment Systems CbAS) a crescut exponenial datorit creterii numrului de
studeni i a posibilitilor oferite de omniprezentul e-Learning asincon i sincron ([181]).
Importana necesitii NLP n dezvoltarea majoritii acestor sisteme se bazeaz pe utilizarea
ntrebrilor numite ntrebri tip-obiectiv care pot fi de mai multe feluri: alegere multipl, rspunsuri
multiple, rspuns scurt, selecie/asociaie, punct fierbinte i identificarea vizual ([180]). Cei mai
muli cercettori n domeniu sunt de acord cu faptul c sunt multe aspecte complexe dificil de
msurat cu ajutorul acestor ntrebri tip-obiectiv, i anume: abilitatea de a memora, de a organiza i
integra ideile, de a se exprima n scris, de a interpreta i aplica informaii, abiliti care pentru a fi
evaluate necesit structurarea unui rspuns care nu se ncadreaz n rspunsurile care pot fi date la
ntrebrile tip-obiectiv ([62]). Astfel, pentru msurarea unor astfel de abiliti, corespunznd
nivelurilor mai nalte ale taxonomiei lui Bloom ([19]), rspunsurile sub form de eseu servesc
pentru atingerea acestui scop.
Una dintre dificultile ntlnite n notarea eseurilor este reprezentat de subiectivitatea care
poate intervine n evaluarea acestora. Muli cercettori susin c natura subiectiv a evalurii
eseurilor conduce la variaii n notele acordate de diferii evaluatori umani, lucru perceput de
studeni ca o mare surs de nedreptate. n plus, notarea eseurilor acestora este o activitate
consumatoare de timp. Conform lui Mason ([103]), aproximativ 30% din timpul profesorilor din
Marea Britanie este dedicat evalurii cunotinelor studenilor. Aceste probleme pot fi parial
eliminate prin adoptarea instrumentelor de evaluare automat a eseurilor, care este posibil datorit
progreselor din domeniul NLP, nvare automat i reele neuronale din ultimii ani. Un astfel de
sistem ar trebui s fie cel puin consecvent n modul cum noteaz eseurile. Dezavantajul c aceste
sisteme cost scump este eliminat prin economia de timp care o ofer ([181]). n plus, potrivit lui
Hearst ([69]), utiliznd calculatoarele crete capacitatea evaluatorului de a nelege caracteristicile
textuale i abilitile cognitive ale studentului necesare n realizarea textelor scrise, fapt cu beneficii
pe termen lung pentru comunitatea educaional.
54
e-Learning, CAA, NLP i modelarea studentului sunt domenii aflate ntr-o strns legtur,
ilustrat n figura 5.1., pentru c:
CAA este domeniul care studiaz cum este efectiv utilizat calculatorul pentru evaluarea
modului n care studentul a nvat;
Modelarea studentului este domeniul care studiaz cum pot fi modelai studenii pentru
ca informaiile coninute n aceste modele s poat fi utilizate ca feedback pentru
profesori, studeni sau, intern, de ctre sistem;
Tehnicile educaionale adaptive hypermedia este domeniul care studiaz tehnicile care
trebuiesc luate n considerare pentru fiecare model de student i modul cum trebuie
acionat n consecin;
NLP este domeniul care studiaz cum se proceseaz automat textul, respectiv n cazul
nostru tehnicile prin care se evalueaz automat rspunsurile sub form de text ale
studenilor.
Fig. 5.1. Relaia dintre CAA, modelarea studentului, tehnicile adaptive hypermedia i NLP
(preluat din [136])
Fig. 5.2. Evoluia n timp a sistemelor de CAA prin evaluarea rspunsurilor sub form de text ale
studenilor (preluat din [136])
55
n continuare este realizat o trecere n revist, n ordine alfabetic, a celor mai

reprezentative sisteme CAA de evaluare a cunotinelor studenilor prin intermediul notrii
rspunsurilor acestora sub form de text utiliznd NLP i cteva dintre principalele caracteristici ale
acestora, evoluia n timp a acestora fiind prezentat n figura 5.2. ([136]):
Automatic Essay Assessor (AEA) ([79]) a fost creat n cadrul Departamentului de
Informatic a Universitii din Joensuu din Finlanda i este capabil s evalueze eseurile
scrise n limba finlandez comparnd eseurile studenilor cu un set de corpusuri de texte
specifice pentru evaluare cum ar fi fragmente din cri, observaii etc. nainte de toate,
pentru c limba finlandez este o limb complex din punct de vedere morfologic,
procesarea textului s-a realizat cu ajutorul unui analizor morfologic constns de un parser
gramatical pentru lematizare i un parser sintactic. n continuare, corpusului de referin i
s-a aplicat tehnica LSA (eng. Latent Semantic Analysis). Recent, n aceast faz a fost
ncercat i Analiza Semantic Latent Probabilistic (eng. Probabilistic Latent Semantic
Analysis PLSA) i Alocaia Latent Dirichlet (eng. Latent Dirichlet Allocation LDA).
n final, reprezentarea LSA, PLSA sau LDA a eseului studentului este comparat cu
reprezentarea LSA, PLSA sau LDA a corpusului de referin, obinut n faza anterioar
i valorile de similaritate din eseu sunt marcate pentru a nota categoriile conform cu
limitele pentru a determina nota corect.
Apex Assessor ([25]) este integrat n mediul de nvare bazat pe web cu acelai nume.
Cnd studenii vor s studieze un subiect n Apex, ei trebuie s-l selecteze i s nceap s
citeasc. Progresul studenilor este evaluat prin intermediul ntrebrilor deschise, iar Apex
Assessor este responsabil de selecia acestor ntrebri i evaluarea lor. Acesta a fost creat
n 2000 de Dessus, Lemaire i Vernier n Laboratorul de tiinele educaiei din
Universitatea Pierre-Mends din Frana. n conformitate cu ceea ce au afirmat autorii,
scopul procesului de evaluare din cadrul Apex Assessor este de a furniza o evaluare nu
numai sumativ, dar i formativ. Desus et al. au dorit s angajeze studenii ntr-un proces
iterativ de mbuntire n scrierea textelor lor, apoi ei s primeasc feedback-ul cu notele
obinute i observaii asupra eseurilor lor care s le dea posibilitatea studenilor de a
rescrie eseurile i de a le trimite din nou.
Acest sistem este susinut de LSA. Astfel, este nevoie de un set de texte nemarcate pentru
antrenare. Acest set include texte n limba francez care nu sunt de specialitate pentru a
permite sistemului s lucreze cu termeni care nu sunt din domeniu care pot s apar n
rspunsul studentului.
Apex Assessor conine trei module principale:
-
Modulul de evaluare bazat pe coninut, care compar reprezentarea LSA a

rspunsului studentului cu modelul LSA;
Modulul de evaluare primar, care pentru fiecare paragraf din textul studentului,
determin poriunea cea mai similar cu cursul, astfel nct studentului i este
furnizat o vedere primar asupra eseului;
Modulul de evaluare a coerenei, care msoar distana semantic ntre fraze

utiliznd LSA. Astfel, dac apropierea dintre dou fraze consecutive este mai mic
dect un anumit prag, incoerena este detectat i studentul este avertizat.
Automated Text Marker (ATM) ([25]) a fost creat n anul 2001 de Callear, Jerrams-Smith
i Soh n Universitatea Portsmouth din Marea Britanie. Ei consider c att coninutul ct
56
i forma trebuie luate n consideraie, astfel nct sistemul lor furnizeaz dou note
independente, una pentru fiecare aspect i las la latitudinea profesorului s le combine
pentru a da nota final.
n evaluarea eseurilor studenilor, ATM se bazeaz pe tehnici IE. Arhitectura sistemului
este prezentat n figura 5.3. Principalele module din ATM sunt analizorul sintactic i
analizorul semantic.
Fig. 5.3. Arhitectura sistemului ATM (preluat din [136])

Automark ([112], [191]) a fost creat n anul 1999 de Mitchell, Russell, Broomhead i
Aldridge de la Universitatea din Liverpool i Universitatea Brunel din Marea Britanie. La
nceput a fost un produs academic, apoi n 2002 ei au fondat propria lor companie
denumit Intelligent Assessment Technologies i au nceput s utilizeze Automark ca un
produs comercial. ntmpltor, n anul 2002, a fost disponibil n ExamOnline ([197]) doar
pentru utilizatorii nregistrai ([136]).
Scopul sistemului este, n principal, evaluarea sumativ, notnd forma i coninutul
eseului cu scopul de a preciza dac acesta este sau nu acceptabil n raport cu un criteriu
specificat de profesor sistemului.
AutoMark utilizeaz tehnici IE ([33]) i tehnici NLP pentru a elimina greelile care s-ar
putea face n ortografie, scriere, sintax sau semantic.
Auto-marking ([159], [192]) a fost dezvoltat n anul 2003 de Pulman, Sukkarieh i Raikes
n Oxford i n Interactive Technologies in Assessment and Learning (ITAL) Unit din
cadrul University of Cambridge Local Examinations Syndicate (UCLES). Scopul su nu
este de a furniza automat nota la examenele importante, ci de a ajuta la examenele mai
puin importante. Fiecare rspuns este notat cu un punctaj ntre 0 i 2 astfel: 0, dac acesta
este incorect, 1 dac este parial correct sau incomplet, sau 2 dac este corect i complet.
Sistemul se bazeaz pe combinarea tehnicilor NLP cu tehnicile pattern-matching
(compararea unui pattern stabilit cu unul anticipat) i conine trei module:
-
Modulul de prelucrare superficial: la nceput el utilizeaz un tagger morfologic

Hidden Markov (eng. Hidden Markov Model part-of-speech tagger) i dou
marcatoare cu dou stri finite (eng. finite-state machine chunkers) pentru a marca
expresiile substantivale i cele verbale. Uneori, n plus, este nevoie i de o reglare
manual;
Modulul de obinere a modelelor IE ( eng. The pattern-matcher module): este foarte

similar cu cel utilizat n Automark, unde experii umani proiecteaz modelele de
57
extragere a informaiei cu care vor fi apoi comparate rspunsurile studenilor. n

1999, Appelt i Israel ([6]) au subliniat importana proiectrii unor reguli corecte. n
plus, Pulman et al. au conceput un limbaj pentru a exprima regulile pentru obinerea
modelelor IE automat.
-
Modelul de notare conform algoritmului (eng. The marking algorithm module):

Regulile au fost organizate n clase i algoritmul definit de Sukkarieh et al. n 2003
([159]) marcheaz rspunsul studentului pentru a-l nota.
The Bayesian Essay Test Scoring sYstem (BETSY) ([144]) a fost dezvoltat ntre 2001 i
2003 de Rudner i Liang la College Park din cadrul Universitii din Maryland. Scopul
sistemului este s clasifice eseurile utiliznd o scal nominal cu patru valori (ex.: extins,
esenial, parial, nesatisfctor) lund n consideraie i forma i coninutul rspunsurilor.
BETSY se bazeaz pe reelele naive Bayesian-e. Utilizatorului i se d posibilitatea s
aleag ntre dou modele: Multivariate Bernouilli Model (MBM) i Bernouilli Model
(BM). O comparaie ntre ele este dat n [104], unde se sugereaz c MBM are o
acuratee mai mare dac este nsoit de un vocabular mare.
C-rater ([23], [194]) i E-rater ([22], [194]) au fost dezvoltate de Organizaia American
Educational Testing Service (ETS). Scopul principal al lui C-rater este s disting dac
rspunsul studentului este corect sau nu, n funie de coninutul lui, iar al lui E-rater s
furnizeze un scor holistic bazat pe organizarea, structura i coninutul eseului. Produs
iniial pentru notarea testelor GMAT (Graduate Management Admission Test) necesare
pentru admiterea la programele de masterat de ctre Educational Testing Service (ETS)
i inaugurat n 1999, E-rater este un program pentru notarea automat a eseurilor
comparnd eseurile care trebuie notate cu un set de nvare ce conine sute de eseuri
scrise corect, fiecare set corespunznd unei ntrebri. Acesta are ns dezavantajele c nu
poate s decid dac textul este scris coerent sau are vreun sens, nu face conexiuni logice
i nu aduce argumente ([133]).
C-rater este foarte asemntor cu E-rater. Principalele diferene sunt ([136]):
-
E-rater se concentreaz pe form, n timp ce C-rater pe coninut;
E-rater furnizeaz un scor holistic, n timp ce C-rater doar identific dac rspunsul
conine informaii specifice necesare ca acesta s fie corect;
dac E-rater este parial bazat pe structura retoric a unui eseu, C-rater este mai mult
bazat pe structura predicat-argument;
n comparaie cu C-rater, E-rater are nevoie de un set de antrenare mai mare.
CarmelTC ([142]) este un modul de evaluare a textului din cadrul sistemului mediu de
nvare virtual (eng. Virtual Learning Environment) numit Carmel. CarmelTC a fost
dezvoltat la Universitatea din Pittsburgh de ctre Ros, Roque, Bhembe i Vanlehn. Pe de
o parte, modulul furnizeaz nota studentului, iar pe de alt parte, independent de aceasta,
el poate fi folosit pentru a arta care sunt caracteristicile corecte din rspunsul
studentului.
CarmelTC utilizeaz o combinaie de metode de clasificare de nvare automat folosind
caracteristicile extrase din analiza lingvistic a textului a lui Carmel i clasificarea
Rainbow Naive Bayes ([104]).
58
The Essay Grading and Analysis Logic (EGAL) ([42], [196]) este un sistem dezvoltat n
anul 2004 de un grup de studeni americani. Este un sistem open source bazat pe patru
crierii: detecia gibberish, care poate fi semantic sau sintactic, relevana la ntrebare,
identificarea faptelor i acurateea lor. Ele pot fi utilizate ca nite module independente
sau separat, dar, conform autorilor, sunt mult mai eficiente dac sunt utilizate mpreun.
The Intelligent Essay Assessor (IEA) ([56], [199]) a fost creat n anul 1997 de Landauer,
Foltz i Laham. Iniial a fost dezvoltat ca un produs academic, dar civa ani mai trziu
autorii au fondat propria lor companie numit Knowledge Analysis Technology. Ei
pretend c IEA este o aplicaie bazat pe web care n numai 20 de secunde furnizeaz
feedback-ul studentului. Scopul principal al acesteia este s evalueze cunotinele
acoperite n eseu, n ce privete forma, sintaxa sau structura acestuia ([56], [85]).
IEA are la baz LSA i conine trei module principale ([30]):
-
Modulul de coninut, care este cel mai important modul; utilizeaz LSA pentru a
calcula scorul ca medie ponderal a scorurilor pentru cele mai similare k eseuri i
scorul de relevan al domeniului ca lungimea vectorului eseului;
Modulul mecanic este cel care analizeaz i noteaz punctuaia i ortografia eseului;
Modulul style este care analizeaz forma i coerena eseului utiliznd LSA.
n conformitate cu ceea ce afirm autorii lui, IEA poate fi utilizat n multe aplicaii
diferite n educaie: de la simpla corectare, la ajutorul pe care l d profesorilor n
descoperirea plagiaturilor sau la evaluarea sumativ sau formativ a eseurilor.
The Intelligent Essay Marking System (IEMS) ([111]) a fost prezentat de Ming, Mikhailov
i Kuan de la Politehnica NGEE ANN din Singapore, n 2000. Scopul acestuia este de a
evalua att sumativ, ct i formativ eseurile studenilor. IEMS se bazeaz pe Pattern
Indexing Neural Network, Indextron pentru recunoaterea modelelor i, n acest caz,
modelele sunt cuvinte din texte.
IntelliMetric ([182], [200]) a fost creat de compania Vantage Learning, dup ce a cheltuit
mai mult de trei milioane de dolari pentru dezvoltarea lui. Este un sistem comercial care
ncearc s ntreac notarea uman prin evaluarea coninutului, formei, organizrii i
conveniile din fiecare rspuns utilind o scar de la 1 la 4.
IntelliMetric are nevoie de o faz iniial de instruire urmat de o evaluare manual a
rspunsurilor date cu scopul de a deduce categoria unde va fi ncadrat n cadrul sistemului
automat. Dintr-o sut de posibiliti iniiale pe care IntelliMetric poate s le ia n calcul, el
alege cel mai apropiat subiect fa de cel aflat n studiu. Deoarece nu este un produs
academic, ci unul comercial, exist puine informaii despre tehnicile utilizate n
dezvoltarea lui. Totui, Vantage Learning Technologies a declarat c IntelliMetric are la
baz alte sisteme aflate n proprietatea lor, aa numitele CogniSearch i Quantum
ReasoningTechnologies i c este un sistem inteligent, deoarece modul n care noteaz
rspunsurile sub form de text ale studenilor este unul inteligent.
The Japenese Essay Scoring System (Jess) ([76], [201]) este primul sistem de evaluare
automat a eseurilor. El a fost creat de National Research Center din Universitatea
Entrance Exam din Japonia. Sistemul evalueaz trei caracteristici ele eseurilor: retorica
(ex. varietatea sintactic), organizarea (ex. modul cum ideile sunt prezentate i relatate n
eseuri) i coninutul (ex. ct de relevant este informaia prezentat i ct de clar i
relevant este vocabularul utilizat).
59
Pentru evaluarea retoricii, Jess msoar un set de itemi, cum ar fi: uurina de a fi citit,
diversitatea vocabularului, procentajul cuvintelor lungi sau frazele aparinnd diatezei
pasive. Pentru organizare, el ncearc s determine structura logic a documentului prin
detectarea anumitor expresii conjunctive. Pentru coninut, acesta utilizeaz LSA.
Dezvoltat la Universitatea din Massachusetts din USA, sistemul lui Larkey a fost creat
pentru a evalua eseuri, avnd la baz tehnici de categorizarea textelor. Iniial, el a fost
produs pentru a clasifica eseurile studenilor universitii n dou categorii, bune sau
rele, lund n consideraie coninutul i forma acestora ([87], [88]).
Procedura de evaluare poate fi una dintre urmtoarele sau combinaie dintre ele:
-
Clasificatorii bayesieni: fiecrui document i este atribuit o probabilitate de

aparinere la o categorie specificat anterioar de documente. Sunt parcurse dou
etape: prima conine eliminarea stopwords-urilor, apoi aplicarea procesului de stem
asupra textului utiliznd instrumentul ksem al lui Krovetz ([83]) i cutarea celei mai
importante caracteristici utiliznd reelele Bayesiane, iar cea de-a doua utilizeaz
modelul binar al lui Lewis, cu 0 pentru cazul cnd caracteristica nu este n text i 1,
n caz contrar.
Gsirea a primelor k cele mai similare eseuri de referin: pentru care este utilizat
sistemul Inquery ([24]);
Utilizarea a unsprezece catacteristici complexe ale textului: sunt calculate automat

unsprezece caracteristici ale textului, dintre care amintim: numrul de caractere ale
documentului, numrul de cuvinte diferite ale documentului, media lungimilor
frazelor media lungimilor cuvintelor documentului i numrul de cuvinte avand mai
mult de apte caractere ([87]).
Nota este rezultatul obinut prin regresia linear aplicat pe valorile celor unsprezece
caracteristici amintite anterior, prin aplicarea clasificatorilor Bayesian sau prin
combinarea celor trei metode prezentate anterior.
Fig. 5.4. Un instantaneu al sistemului MRW (preluat din [136])

MarkIT ([190], [202]) este un sistem de evaluare a textelor studenilor, oferindu-le
acestora un feedback despre cum ar trebui utilizate conceptele n cadrul eseurilor.
Sistemul a fost dezvoltat de o echip de cercettori din cadrul colii Information Systems
din cadrul Universitii Curtin de Tehnologie din Australia. Acesta utilizeaz tehnici
60
NLP, LSA i un tezaur electronic pentru a procesa i a compara rspunsul studentului cu

modelul de rspuns ce este extras dintr-un set de coninuturi de e-Learning.
MultiNet Working Bench (MRW) ([99], [203]) este un instrument grafic de evaluare a
cunotinelor studenilor. A fost creat n cadrul Departamentului de Informatic al
FernUniversitat din Germania i se bazeaz pe paradigma MultiNet a crui idee de baz
este s reprezinte limbajul natural ca o reea semantic n nodurile crora sunt entitile
discursului i arcele fiind relaiile semantice ntre acestea. n figura 5.4. este un exemplu
de reea semantic.
Sistemul MRW este capabil s reprezinte, s editeze i s evalueze reele semantice n
forma MultiNet. Reprezentarea intern a rspunsului studentului ca o reea semantic i
soluia luat ca referin sunt comparate utiliznd inferenele logice, iar rezultatul poate fi
acela c este greit, cu fragmente lips, neverificat sau verificat. Acest rezultat este dat
studentului sub form de text sau sub form de graphic. De exemplu, prile neverificate
sau greite din reeaua studentului sunt marcate cu rou, iar cele verificate i corecte cu
verde. Feedback-ul poate fi mbogit prin sugerarea unor link-uri ctre anumite exemple
sau surse de informaie.
The Project Essay Grader (PEG) ([128], [204]) a fost pentru prima oar prezentat n
1966 de Page in Universitatea Duke n USA. La nceput, sistemul nu utiliza tehnici NLP,
ci doar statistice. Mai trziu, n anul 1990, el a fost mbogit cu un parser gramatical i
un tagger morfologic, putnd s evalueze coninutul, organizarea, forma i creativitatea
rspunsurilor studenilor ([152]).
The Paperless School Marking Engine (PS-ME) ([103], [205]) este un sistem
semiautomat prezentat n 2002 de Mason i Grove-Stephenson din Universitatea
Birmingham din Marea Britanie, devenit, apoi, produs comercial. Obiectivele sale de
evaluare sunt att sumative, ct i formative i poate fi integrat ntr-un sistem de
managementul nvrii sau ca o apliaie de sine stttoare. Pentru dezvoltarea sistemului,
autorii acestuia au pornit de la taxonomia lui Bloom ([19]) i au utilizat tehnici NLP.
The Research Methods Tutor (RMT) ([189]) este un sistem de tutoriat bazat pe dialogul
prin intermediul web-ului, rezultat din colaborarea departamentelor de Informatic i
Psihologie din cadrul Universitii DePaul din Statele Unite, fiind descendentul
sistemului numit AutoTutor ([61]). RMT este suficient de flexibil, acesta fiind proiectat
astfel nct s poat integra diferite instrumente i tehnici necesare mbuntirii activitii
de tutoriat.
Ca i AutoTutor, RMT se bazeaz pe LSA. Aceasta nseamn c, nainte de toate, are
nevoie de un set de antrenare de texte de referin. Apoi el evalueaz rspunsul
studentului transformndu-l n reprezentarea LSA a lui, aceasta comparnd-o cu
reprezentarea LSA a rspunsurilor ateptate. n continuare, n funcie de rspunsul corect
sau greit al studentului, activitatea de tutoriat a sistemului inteligent poate continua. n
prezent, autorii sistemului ncearc s-l mbunteasc prin segmentarea frazelor de
intrare n prile morfologice componente i compararea fiecreia dintre acestea separat.
The Semantic Analysis Grader (SAGrader) ([198], [206]) este un instrument de evaluare
a eseurilor sub form de text, realizat de compania american Idea Works. El utilizeaz
instrumentul QTools, dezvoltat de aceeai firm, care recunote modelele din eseurile
studenilor, le compar cu rspunsurile corecte i ofer un feedback detaliat n funcie de
aceasta.
61
Conform autorilor lui, sistemul nu este restricionat la nici un domeniu i scopul lui nu
este s nlocuiasc profesorul, ci sa-l asiste. De fapt, instructorul este foarte important i
nu are cum s lipseasc, deoarece el este cel care introduce reeaua semantic de
cunotine utiliznd modulul de dezvoltare al sistemului. De asemenea, instructorul este
cel care specific cum se va face evaluarea, iar n funcie de acestea, sistemul poate s
decid care elemente din reea ar trebui s fie prezente n n rspunsul studentului.
Sistemul poate s genereze, de asemenea, posibile ntrebri pentru student.
nafara feedback-ului furnizat ctre studeni, sistemul poate s prezinte i instructorului
un feedback. Sistemul poate furniza instructorului data cnd studentul a ncrcat eseul,
textul chiar dac a fost arhivat, preocupri sau obiecii n legtur cu nota dat de
SAGrader.
The Schema Extract Analyse and Report (SEAR) este un sistem prezentat de Robert
Gordon University din Marea Britanie pentru a evalua coninutul i forma eseurilor
studenilor, utiliznd tehnici IE ([28], [29], [207]).
5.2. Sisteme CSCL de analiz utiliznd NLP a interaciunilor la nivelul

conversaiilor de tip chat sau forum
Comunicarea reprezint un punct cheie n cadrul mediilor colaborative, cum ar fi
conferinele chat. De aceea, este un atu esenial faptul de a dispune de instrumente de comunicare
adecvate, care s permit realizarea de conferine organizate i clare. n multe scenarii de lucru
colaborativ, comunicarea, n special cea facilitat de calculator, reprezint o gtuire semnificativ i
de aceea punerea la dispoziia membrilor unei echipe a unor unelte special concepute n acest scop
se poate dovedi a fi un avantaj crucial n dezvoltarea proiectelor ([58]). Conferinele computerizate
au devenit tot mai utilizate datorit beneficiilor pe care le aduc: confort, independen spaial i
temporal, posibilitatea utilizatorilor de a face parte dintr-o comunitate virtual ([17]).
Dac n nvarea colaborativ, n mediul virtual ca i n sala de clas, profesorul depune
acelai efort, pentru evaluarea studenilor situaia se schimb: profesorul trebuie s evalueze
participarea fiecrui student din comuniunea online, ce poate ajunge la dimensiuni considerabile.
Simpla parcurgere a contribuiei fiecrui participant necesit foarte mult timp i concentrare din
partea profesorului. Cu acest scop a aprut necesitatea de a extrage informaii, inclusiv prezena
emoiilor, din diverse comunicri verbale sau textuale.
Mai multe companii ca Right Now Technologies sau NICE Systems au produs aplicaii
precum SmartSenseTM sau NICE PerformTM care recunosc emoiile folosind tehnici de
detecie a cuvintelor cheie, apoi marcheaz, prioritizeaz i dirijeaz investigaiile,
bazndu-se pe coninutul emoional ([133]).
Tot n domeniul deteciei emoiilor se remarc i agentul care preia tiri de la diverse
resurse, clasificnd titlurile n opt categorii de emoii, folosind interpretoare semantice i
SenseNet ([151]).
Pentru a clasifica automat emoii, un alt studiu ([95]) folosete un program de nvare
automat numit BOSTEXTER, program destinat clasificrii de texte care utilizeaz un
algoritm de stimulare, ce formeaz o clasificare ipotetic combinnd rezultatele mai
multor iteraii ([149]).
62
Dezvoltat de un grup de cercettori de la Universitatea din Illinois, soft-ul denumit

Semantic Role Labelling ([193]) poate identifica verbul i structura argumentului dintr-o
propoziie. Acesta, mpreun cu motorul de cutare Google, a fost utilizat n scopul
deteciei emoiilor i a nelegerii textului ([97]).
ConcertChat ([248]) este o implementare n Java a unui sistem de chat creat de
Fraunhofer Integrated Publication and Information Systems Institute, ce are anumite
faciliti importante, dintre care amintim crearea de referine ctre replici anterioare sau
pri ale acestora i vizualizarea oricrui moment de timp a istoriei whiteboard-ului,
inclus n platform, prin intermediul serviciului denumit History Slider. Totui,
ConcertChat are i anumite dezavantaje printre care faptul c nu permite dezvoltarea i
integrarea facil de module adiionale care ar putea s sporeasc eficiena lucrului
colaborativ, nu conine sisteme de recomandare sau alte unelte care s caute i s propun
informaii noi sau informaii ce se regsesc implicit informaii ce se regsesc implicit n
jurnalele de dialog ([58]).
n [60] este descris un mecanism de interaciune ntre om i web-ul semantic (baze de
cunotine i servicii web) ce utilizeaz boi IRC (Internet Relay Chat). Boii IRC sunt
programe care simuleaz comportamentul utilizatorilor n astfel de reele de chat. Acestea
sunt uor de implementat, au o interfa conversaional intuitiv cu utilizatorii umani i
rspund la cereri de informaii specifice web-ului semantic ([58]).
Pn acum, au mai fost dezvoltate cteva sisteme CSCL de analiz a interaciunilor la
nivelul conversaiilor de tip chat sau forum. Printre acestea se numr CORDTRA ([70]),
COALA ([49]) i alte aplicaii utilizate n sistemul Argunaut ([68]), metoda de
vizualizare, KSV ([161]), sistemul Ch.A.M.P. pentru evaluarea i modelarea contribuiei
participanilor la un Chat ([39]), sistemul avansat ASAP de evaluare a participanilor la un
chat ([38]) i Polyphony ([167]), care vor fi prezentate pe scurt n cele ce urmeaz.
5.2.1. Polyphony, sistem de chat bazat pe cunotine

Soluia propus de sistemul Polyphony mbuntete sistemele convenionale din dou
puncte de vedere. n primul rnd, la nivelul cunotinelor, sistemul genereaz informaii care ar
putea s fie folositoare pentru participanii la discuie. Totodat, server-ul Polyphony transform i
salveaz toate datele legate de un dialog pentru ca acestea s poat fi analizate i de alte unelte
software, care la rndul lor s produc informaii relevante contextului discuiei. Informaiile ce se
pot genera astfel pot s provin din surse externe ce au legtur cu coninutul dialogului sau pot s
fie date ascunse n jurul discuiei din care s se poat deduce anumite informaii legate de
participani sau de discuia nsi. De asemenea, la nivel vizual sunt aduse mbuntiri importante
care ofer o bun privire de ansamblu asupra desfurrii dialogului ([58]).
Din punct de vedere al interfeei, Polyphony pune la dispoziia utilizatorilor noi moduri de
vizualizare, fiecare menit s ofere o perspectiv diferit asupra conversaiei ([58]):
Vizualizarea standard cu legturi ntre replici (eng. Classic View with Utterance Linking),
prin care utilizatorii au posibilitatea de a indica replica anterioar la care rspund, astfel
eliminndu-se ambiguozitatea;
Vizualizarea firelor de discuie (eng. Threaded View), prin care referinele indicate de
ctre utilizatori sunt folosite pentru a reda conversaia sub form arborescent, avnd
63
drept noduri replicile, iar replicile ce refer alte replici anterioare fiind noduri-fii ale
acestora.
Vizualizarea temporar (eng. FlowView), prin care conversaia este redat secvenial, n
timp, utilizndu-se blocuri corespunztoare fiecrei replici, blocuri avnd lungimea
proporional cu durata scrierii lor i poziionarea corespunznd cu momentul nceperii
tastrii rspunsului.
Polyphony conine mai multe module, toate dezvoltate n cadrul Facultii de Automatic i
Calculatoare din Universitatea Politehnic Bucureti, care genereaz diferite jurnale pe care apoi le
analizeaz, i anume ([58]):
Sistem de recomandare: genereaz recomandri specifice pornind de la subiectul discuiei
i analiznd ultimele replici introduse. Acest modul este format din:
-
o baz de cunotine compus dintr-o ontologie, realizat cu ajutorul mediului

Protg ([249]), care grupeaz concepte ntr-o form ierarhizat i un dicionar
lexicografic utilizat pentru a extrage sensurile cuvintelor din corpul chatului, i
anume WordNet ([211]);
un parser;
un analizor care realizeaz predicii;
un sistem care permite votarea recomandrilor oferite.
Sumarizarea, prin crearea unui rezumat al discuiei;

Identificarea personalitii utilizatorilor pe baza nivelului de implicare al acestora n
discuie;
Identificarea strii emoionale a utilizatorilor prin analizarea emoticoanelor i a
cuvintelor utilizate;
Identificarea competenelor utilizatorilor prin studierea comportamentului celorlali
utilizatori n raport cu acetia.
5.2.2. ASAP, sistem de evaluare a participanilor la un chat

Sistemul ASAP (An Advanced System for Assessing Chat Participants sistem avansat
pentru evaluarea partcipanilor la un chat) este un pachet de programe software dezvoltate sub
ndrumarea Prof. Dr. Ing. tefan Truan-Matu, n cadrul Facultii de Automatic i Calculatoare
din Universitatea Politehnic Bucureti, care ajut att profesorii ct i studenii n mbuntirea
metodelor de nvare i n evaluarea participanilor oferind un feedback pe baza chat-ului.
Pornind de la succesiunea replicilor unui chat, sistemul construiete reeaua social ([250],
[121]) care poate fi reprezentat vizual prin graful participanilor, precum i graful replicilor
interschimbate, util pentru vizualizarea ierarhiei/niruirii replicilor. Reeaua social este un graf n
care nodurile sunt participanii la discuie, iar arcele sunt replicile schimbate. Graful replicilor
reprezint o reprezentare ierarhic a succesiunii acestora, bazat pe legturile explicite marcate n
64
transcriptul XML-ul exportat din sistemul Polyphony ([126]) sau ConcertChat ([71], [38]).
n analiza contribuiei la chat n cadrul ASAP, au fost definii, calculai i utilizai o serie de
factori, n scopul evalurii lor, i anume ([38]):
Numrul de caractere scrise de participant, factor relevant de multe ori n descoperirea
persoanei cele mai competente;
Numrul de caractere per intervenie este un alt factor care influeneaz nota final
deoarece determin eficiena medie a interveniei, unde eficiena medie este definit de
ctre dezvoltatorii sistemului ca fiind o balan ntre lungimea interveniei i consistena
informaiilor pe care le cuprinde;
Gradul de centralitate (eng. degree centrality), ca i anterioarele dou, un alt factor care
inflieneaz din punct de vedere cantitativ analiza chatului, se calculeaz pornind de la
transcriptul chatului, dup care se genereaz graful replicilor, avnd ca noduri
participanii i arce replicile interschimbate. Aceast informaie este necesar n cadrul
analizelor reelei i mai ales a relaiilor sociale din cadrul ei;
Centralitate. Conform teoriei grafurilor exist cinci tipuri de centraliti:
-
apropierea (eng. closeness), msur a centralitii unui nod n graf, este invers
proporional cu distana minim dintre nodul curent i celelalte noduri din graf;
centralitatea grafului este definit ca fiind egal cu inversul distanei maxime dintre
nodul curent i celelalte noduri ale grafului, distan calculat cu ajutorul
algoritmului Floyd-Warshall ([21], [32]);
centralitatea de trecere este o alt msur a centralitii, conform creia au un grad

mai mare nodurile care se afl pe mai multe drumuri minime din graf dintre oricare
dou noduri ([21]);
factorul de stres, caz n care centralitatea este egal cu suma tuturor drumurilor
minime care trec prin nodul curent;
valori proprii, factor care ataeaz note relative tuturor nodurilor din reea, pornind
de la ideea c o legtur cu un nod de rang nalt este mai important dect mai multe
legturi cu noduri de rang mai mic.
Rangul unui utilizator este calculat folosind algoritmul lui Page Rank ([130]) (care st la
baza sistemului Google), matricea cu numrul de intervenii schimbate ntre participani
i notele acestora, printr-o metod iterativ. Cu ct un utilizator este mai cutat, nseamn
c informaiile provenite de la el sunt mai valoroase pentru ceilali participani, deci
rangul lui va fi crescut pe msur ce i sunt adresate mai multe replici de la persoane,
preferabil, ct mai importante;
Nota interveniei poate fi empiric sau final. Notei empiric a interveniei se calculeaz
lundu-se n considerare urmtorii factori:
-
lungimea replicii;
numrul cuvintelor cheie, care rmn din replic dup corectarea cuvintelor scrise
greit (eng. spellcheck) pentru care s-a utilizat biblioteca Jazzy ([243], [244]),
extragerea rdcinii (eng. stemming) pentru care s-a utilizat Snowball ([251]) i
eliminarea stop words, utilizndu-se o list de cuvinte irelevante;
65
nivelul la care se afl intervenia participantului n niruirea replicilor.
Nota final a replicii se calculeaz cu ajutorul notei empirice a replicii i a unui coeficient
care este determinat n funcie de tipul replicii curente i al replicii de care aceasta este
legat. n evaluarea unei replici, n cazul analizei de tip semantic a reelei sociale se va
realiza o filtrare a replicilor din punctul de vedere al nrudirii termenilor folosii cu o list
de cuvinte introduse de utilizator sau cu o list de cuvinte cheie ale chat-ului determinat
statistic. Pentru a determina aceste cuvinte cheie se creeaz domenii de cuvinte inrudite,
folosind relaii de tip sinonimie din WordNet ([211]) sau tehnica Latent Semantic
Analysis (LSA) utilizat n NLP ([252]), iar apoi, pe baza frecvenei cuvintelor, a poziiei
n replic i a importanei totale a replicii se obine lista de candidai ordonai dup aceste
criterii.
LSA([252]) este o tehnic utilizat n procesarea limbajului natural, n particular n
semantica vectorial a analizei relaiilor dintre un set de documente i termenii pe care i
conin, producnd o serie de concepte n relaie cu documentele i termenii coninui de
fiecare. Aceast tehnic folosete o matrice rar care conine numrul de apariii ale
termenului n diversele documente, avnd pe coloane documentele care pot fi cutate, iar
pe linii termenii (de obicei rdcina cuvintelor cheie dup care se face cutarea) coninui
n aceste documente. LSA transform matricea de apariii n relaii ntre termini i
concepte, respectiv ntre concepte i documente, modelnd astfel indirect corespondena
dintre termini i documente prin intermediul conceptelor. LSA este utilizat n cadrul
procesului de evaluare n vederea estimrii corelrii cu ntregul chat i a relevanei
fiecrei replici relative la domeniul luat n considerare ([38]).
Din punct de vedere computaional, aceast transformare a fost obinut n urma aplicrii
transformrii n valori proprii singulare (Singular-Value Decomposition SVD)
asemntoare cu metoda celor mai mici ptrate ([39]). Pentru mbuntirea rezultatelor
obinute prin intermediul LSA, matricea iniial a fost ponderat folosind Tf-idf (frecvena
termenilor invers proporional cu frecvena documentelor, eng. term frequency inverse
document frequency), proporional cu frecvena termenului n colecia de documente i
invers proporional cu numrul de documente n care apare (astfel termenii rari avnd
ponderi mai mari, iar cei care apar n foarte multe documente ponderi mai mici ([102]).
LSA transform, prin metode algebrice, aceast matrice n relaii ntre termeni i
documente precum i n grupuri de cuvinte nrudite (aa numitele spaii semantice).
Reuind s determine automat competena unei personane care particip la un chat, ASAP
este o interfa foarte util n examinarea interaciunilor om-calculator folosind sisteme de chat, nu
numai n aplicaiile educaionale, ci i n, de exemplu, proiectare sau rezolvare de probleme
colaborative ([38]).
Fig. 5.5. Interfaa A.S.A.P.(preluat din [38])

66
5.2.3. Ch.A.M.P., sistem pentru evaluarea i modelarea contribuiei

participanilor la un chat
mbuntire a sistemului ASAP, prezentat pe scurt n subcapitolul anterior, sistemul
Ch.A.M.P. (Chat Assesment and Modeling Program Program de evaluare i modelare a
contribuiei participanilor la chat) este un sistem dezvoltat sub coordonarea Prof. Dr. Ing. tefan
Truan-Matu n cadrul Facultii de Automatic i Calculatoare din Universitatea Politehnic
Bucureti, n scopul evalurii competenelor i a evoluiei participanilor din cadrul unui mediu
colaborativ. Dintre mbuntirile aduse fa de sistemul ASAP, n cadrul sistemului Ch.A.M.P. se
remarc modul de calcul al notei empirice a replicii, n care se ine cont, nafar de factorii
prezentai n subcapitolul anterior, i de relevana acesteia, aceasta din urm fiind calculat n
funcie de relevanele cuvintelor din care este alctuit replica.
O component important a sistemului este cea de vizualizare prin intermediul creia se
poate observa i modela reeaua social, se poate analiza evoluia global la nivelul ntregului chat,
la nivelul unui fir de discuie, dar i la nivelul fiecrui participant n parte, i se poate evidenia
contribuia fiecrui participant prin statisticile generate pe baza diverselor matrici ([39]).
Pornind de la platforma Prefuse ([253]), n scopul vizualizrii reelelor sociale au fost create
dou modele ([39]):
un model fizic, n care participanii sunt considerai planete, fiecare cu planeta aferent;
lungimea legturii ntre participani se bazeaz pe notele replicilor interschimbate, iar
coeficienii de elasticitate sunt modificai pentru a obine un model ct mai realist;
un model radial, orientat pe centralitatea perspectivei de vizualizare graful este
concentrat asupra participantului selectat i asupra vecinilor lui; acest model de
vizualizare permite vizualizarea reelei din perspectiva oricrui utilizator, cu o adncime
maxim admis i cutarea participanilor ntr-o reea extins.
Pentru fiecare factor specific al reelelor sociale, precum i pentru statisticile finale, sistemul
ofer posibilitatea vizualizrii:
contribuiei i implicrii fiecrui participant;
evoluiei participanilor prin nsumarea contribuiilor personale pn ntr-un punct
predefinit din chat;
evoluiei anumitor fire de discuie, pornind de la prima replic de interes;
parcursului global al conversaiei, pornind de la scorul final al fiecrei replici.
n cadrul sistemului au fost dezvoltate module n vederea evalurii manuale a fiecrui chat
pentru a obine corpusul de referin, pentru a compara notele cu rezultatele obinute n urma
analizei automate i pentru a nva din corpus folosind LSA i WordNet. n evaluarea sistemului au
fost luai n considerare: corectitudinea relativ i corectitudinea absolut, raportate la notele
individuale ale participanilor pentru fiecare chat care reprezint distanele euclidiene ntre nota
manual i scorul automat. Rezultatele obinute prin aplicarea metricilor specifice reelelor sociale
i analiza semantic a coninutului fiecrei replici din cadrul unei conversaii permite realizarea unei
evaluri automate a contribuiei fiecrui participant ntr-un mediu colaborativ ([39]).
67
Concluzii
CONCLUZII
n ultimii ani, pe fondul schimbrilor rapide i progresului tehnologic nregistrat, precum i
pe fondul tendinei de globalizare a educaiei universitare i eliminare a granielor dintre stundeni,
s-au deschis pentru practica educaional noi perspective. Astfel, n conjunctura omniprezenei webului i a creterii numrului de tehnici, resurse i instrumente NLP, integrarea i utilizarea procesrii
limbajului natural n dezvoltarea aplicaiilor aparinnd e-Learning s-a impus ca o consecin
normal.
Aplicaiile lingvisticii computaionale, inclusiv n e-Learning, nu pot avea performane
competitive n absena unor resurse lingvistice de foarte bun calitate. Aceste aplicaii reprezint, de
cele mai multe ori, o combinaie de module separate, fiecare cu propriile cerine informaionale. De
aceea, datorit utilitii acestora, inclusiv n e-Learning, n primul capitol al prezentei lucrri, vor fi
trecute n revist cteva dintre cele mai reprezentative resurse ale lingvisticii computaionale, i
anume: dicionarele, tezaurele, ontologiile lexicale, corpusurile, precum i aspecte generale ale lor.
Avnd n vedere marele volum de coninut static i dinamic dedicat satisfacerii cerinelor
impuse de e-Learning, dezideratul major pentru extinderea utilizrii acestui coninut este de a
perfeciona/mbunti eficacitatea regsirii i accesibilitii acestuia prin folosirea sistemelor de
management al nvrii. Obiectivul proiectului Tehnologii Lingvistice pentru e-Learning (eng.
Language Technology for eLearning LT4eL) ([235]), prezentat pe scurt n capitolul al doilea, a
fost abordarea i rezolvarea acestei probleme prin dezvoltarea i utilizarea de funcionaliti bazate
pe tehnologii lingvistice i prin integrarea coninutului semantic care mbuntesc managementul,
distribuia i regsirea materialului de nvare ([235]).
nvarea mbuntit cu ajutorul tehnologiei (eng. Technology-enhanced learning TEL)
devine din ce n ce mai rspndit n lumea educaiei. Astfel, se impune un numr nsemnat de
schimbri de ctre tehnologia nsi, cum ar fi accesul la instrumentele necesare, utilizarea i
optimizarea utilizrii acestora, precum i datorit problemelor de interoperabilitate, n cazul cnd se
utilizeaz diferite instrumente i dispozitive. Cu toate acestea, instrumentele produse cu ajutorul
acestor tehnologii - i ne referim aici n principal la cele de coninut - au devenit o adevrat
provocare. Cantitile imense de coninut digital produs de participanii la procesul educaional
solicit noi strategii inovatoare i modaliti diverse de a le manipula, n scopul de controla volumul
de munc, att pentru tutori, ct i pentru cursani, concomitent cu mbuntirea nelegerii a ceea
ce a fost produs i contribuie la atingerea obiectivelor de nvare ([228]).
Gsirea unor noi modaliti inovatoare pentru a aborda aceast nou provocare este una
dintre ambiiile proiectului Tehnologii lingvistice pentru nvare continu (eng. Language
Technologies for Lifelong Learning LTfLL) ([228]), prezentat n capitolul trei. Serviciile
dezvoltate n cadrul LTfLL, prezentate n acelai capitol, utilizeaz tehnologia pentru nelegerea i
analizarea datelor disponibile, i anume eseurile i blog-urile instruiilor, conversaiile acestora pe
platforme chat i forumuri. Scopul acestora este de a sprijini instructorii n procesarea acestei mari
cantiti de date, ntr-un mod ct mai rapid i mai performant, prin furnizarea unor aplicaii
prietenoase n format widget (aplicaie mic care poate fi plasat forte uor ntr-o pagin web,
urmnd a fi rulat de browser-ul vizitatorului care acceseaz pagina). ([228]).
n multe aplicaii de prelucrare a limbajului natural, cum ar fi traducerea automat,
abstractizarea automat, rezumarea automat, dar i instruirea asistat de calculator, inclusiv eLearning, un rol vital l are rezoluia anaforei (eng. Anaphora Resolution AR). n ceea ce privete
68
Concluzii
importana AR n domeniul instruirii asistate de calculator, respectiv n e-Learning, AR i-a

dovedit utilitatea n rezolvarea de exerciii i probleme n scopul ntririi cunotinelor acumulate
de ctre studeni/instruii, n evaluarea asistat de calculator ca i n alte subdomenii ale eLearning, aspecte prezentate n capitolul al patrulea.
n ultimii ani, datorit dezvoltrii NLP, printre numeroasele aplicaii ale acestuia se regsesc
i cele din cadrul e-Learning-ului, cu precdere din e-evaluare i nvarea colaborativ. Astfel, n
capitolul cinci sunt prezentate aspecte ale utilizrii NLP n cadrul evalurii asistate de calculator
(eng. Computer Assisted Assessment CAA), urmate de o trecere n revist a celor mai
reprezentative sisteme CAA de evaluare a cunotinelor studenilor prin intermediul notrii
rspunsurilor acestora sub form de text, utiliznd NLP. De asemenea, sunt prezentate o serie de
sisteme de nvare colaborativ bazat pe calculator (eng. Computer Supported Collaborative
Learning CSCL) de analiz a interaciunilor la nivelul conversaiilor de tip chat sau forum prin
utilizarea tehnicilor NLP, altele dect cele prezentate n capitolul 3, mpreun cu trsturile lor
caracteristice.
Sistemele de e-Learning vor deveni instrumente de formare a personalitii i creativitii
utilizatorilor. Prin instruire personalizat i colaborare distribuit se vor putea eficientiza toate
activitile umane n societatea bazat pe cunoatere a acestui nceput de secol. Instruirea asistat
capt un coninut cu o anumit funcionalitate, aflat ntr-o permanent evoluie, condiionat de
echipele de profesori, formatori i administratori ai coninutului i ai funcionalitii acestuia i de
specialitii din domeniul tehnologiei informaiei, care asigur portabilitatea n noile medii.
Contextul este deschis i condiionat de segmentul de instruii vizat i de dorina de via a
sistemului viu numit e-Learning.
69
Bibliografie
BIBLIOGRAFIE
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
Adams, P. H., Martell, C. H., Topic detection and extraction in chat. In Proceedings of
the 2008 IEEE International Conference on Semantic Computing, pp. 581-588, 2008.
Alfonseca, E., Wraetlic user guide version 1.0, 2003.
Alfonseca, E., Prez, D., Automatic assessment of short questions with a bleu-inspired
algorithm and shallow nlp, In Advances in Natural Language Processing, volume 3230 of
Lecture Notes in Computer Science, pages 2535. Springer Verlag, 2004.
Al-Kofani, K., Grom, B. and Jackson, P., Anaphora resolution in the extraction of
treatment history language from court opinions by partial parsing, Proceedings of the
17th International Conference on Artificial Intelligence and Law, 138146. Oslo, Norway,
1999.
Anderson, J.R., Cognitive psychology and its implications, New York, Freeman, 1985.
Appelt, D., Israel, D., Introduction to Information Extraction technology, IJCAI 99
Tutorial, 1999.
Azzam, S., Humphreys K., Gaizauskas R., Using Coreference Chains for Text
Summarization, In Proceedings of the ACL99 Workshop on Coreference and its
Applications, Baltimore, USA, June, 1999.
Bakhtin, M., The Dialogic Imagination: Four Essays, University of Texas Press, Austin,
1981.
Bakhtin, M.M., Spech Genres and Other Late Essays, University of Texas, Austin, 1986.
Bakhtin, M.M., Problems of Dostoevskys Poetics, University of Minnesota Press,
Minneapolis, 1993.
Baldwin, B., Morton, T., Bagga, A., Baldridge, J., Chandraseker, R., Dimitriadis, A.,
Snyder, K. and Wolska, M., Description of the UPENN CAMP system as used for
coreference, Proceedings MUC-7. Washington, DC, 1998.
Baldwin, B., Morton, T., Dynamic coreference-based summarization, Proceedings of the
Third International Conference on Empirical Methods in Natural Language Processing
(EMNLP-3). 1-6.Granada, Spain, 1998.
Barbu Mititelu, V., Ceauu, A., Ion, R., Irimia, E., tefnescu, D., Tufi, D., Resurse
lingvistice pentru un sistem de ntrebare-rspuns pentru limba romn, Revista Romn
de Interaciune Om-Calculator, Vol. 2, Nr.1, Editura Matrix Rom Bucureti, Editori S.C.
Buruga, Costin Pribeanu, 2009.
Bean D., Riloff, E., Corpus-Based Identification of Non-Anaphoric Noun Phrases. In
Proceedings of the 37th Annual Meeting of the Association for Computational
Linguistics, pages 373 380, 1999.
Bejinariu, S., Apopei, V., Luca, R., Botoineanu, L., Olariu, F., Atlas lingvistic electronic,
Lucrrile atelierului Resurse lingvistice i instrumente pentru prelucrarea limbii romne,
Iai, Editori: Pistol, I.C., Cristea, D., Tufi, D., Editura Universitii Alexandru Ioan
Cuza, 2007.
Bentivogli, L., Forner, P., Magnini, B., Pianta, E., Revising WordNet Domains Hierarchy:
Semantics, Coverage, and Balancing. Proceedings of COLING 2004 Workshop on
"Multilingual Linguistic Resources", Geneva, Switzerland, 101-108, 2004.
Berge, Z., Collins, M., Computer Conferencing and Online Education, The Arachnet
Electronic Journal on Virtual Culture, 1(3), 1993.
Berlanga, A. J., Rosmalen, P. V., Trausan-Matu, S., Monachesi, P., & Burek, G., The
Language Technologies for Lifelong Learning Project. In D. S. I. Aedo., N. Chen,
Kinshuk, Proceedings of the 9th IEEE International Conference on Advanced Learning
Technologies, Riga, pp. 624-625, 2009.
Bloom, B.S., Taxonomy of educational objectives: The classification of educational
Bibliografie
goals, HandbookI, cognitive domain. New York ; Toronto: Longmans, Green, 1956.
[20] Bobicev, V., Maxim, V., Prodan, T., Burciu, N., Anghelu, V., Emoii n cuvinte:
elaborarea resursei multilingve, Lucrrile atelierului Resurse lingvistice i instrumente
pentru prelucrarea limbii romne, Iai, Editori: Iftene, A., Teodorescu, H.-N., Cristea, D.,
Tufi, D., Editura Universitii Alexandru Ioan Cuza, 2010.
[21] Brandes, U., A Faster Algorithm for Betweenness Centrality, Journal of Mathematical
Sociology 25(2):163-177, 2001.
[22] Burstein, J., Kukich, K., Wolff, S., Lu, C., Chodorow, M., Bradenharder, L., Dee Harris,
M., Automated scoring using a hybrid feature identification technique, In Proceedings of
the Annual Meeting of the Association of Computational Linguistics, 1998.
[23] Burstein, J., Leacock, C., Swartz, R., Automated evaluation of essays and short answers.
In Proceedings of the International CAA Conference, 2001.
[24] Callan, J.P., Croft, W.B., Broglio, J., TREC and TIPSTER experiments with INQUERY,
Information Processing and Management, 1995.
[25] Callear, D., Jerrams-Smith, J., Soh, V., CAA of Short Non-MCQ answers, In Proccedings
of the 5th International Computer Assissted Assessment conference, 2001.
[26] Carletta, J., Assessing agreement on classification tasks: The kappa statistic.
Computational Linguistics, 22, 1996.
[27] Cpn, C., Preda, A., Preda, V., Despre formatul electronic al DILR, Lucrrile
atelierului Resurse lingvistice i instrumente pentru prelucrarea limbii romne, Iai,
Editori: Pistol, I.C., Cristea, D., Tufi, D., Editura Universitii Alexandru Ioan Cuza,
2007.
[28] Christie, J.R., Automated essay marking - for both style and content, In Proceedings of
the 3rd International Computer Assisted Assessment Conference, 1999.
[29] Christie, J.R., Automated essay marking for content - does it work?, In Proceedings of the
7th International Computer Assisted Assessment Conference, 2003.
[30] Chung, G.K., ONeill, H.F., Methodological approaches to online scoring of essays,
Technical Report 461, UCLA, National Center for Research on Evaluation, Student
Standards, and Testing, 1997.
[31] Clark, H.H., Haviland, S.E., Psycological processes as linguistic explanation, In Cohen,
D., (Ed.), Explaining Linguistic Phenomena, Washington, Hemisphere Publishing Corp.,
1974.
[32] Cormen, T., Leiserson, C., Rivest, R., Stein, C., Introduction to Algorithms, MIT Press,
2001.
[33] Cowie, J., Lehnert, W.G., Information Extraction, Communications of the ACM, 39(1):
8091, 1996.
[34] Cristea, D., Ide, N., Marcu, D., Tablan, M.-V., Discourse Structure and Co-Reference: An
Empirical Study, in Proceedings of the 18th International Conference on Computational
Linguistics COLING'2000, Luxembourg, July 31-August 4, 2000.
[35] Cristea, D., Postolache, O., Pistol, I., Summarisation through discourse parsing, In
Proceedings of CICLING 2005, 2005.
[36] Cristea, D., Rschip, M., Forscu, C., Haja, G., Florescu, C., Aldea, B., Dnil, E., The
Digital Form of the Dictionary of the Romanian Language. In C. Burileanu, H.N.
Teodorescu (eds.), Proceedings of the 4th International IEEE Conference SpeD 2007,
Advances in Spoken Language Technology, Iai, 10-12 Mai 2007, Editura Academiei
Romne, 2007.
[37] Dasclu, M., Chioasc, E.V., Trusan-Matu, S., ASAP - An Advanced System for
Assessing Chat Participants, in D. Dochev, M. Pistore, and P. Traverso (Eds.): AIMSA
2008, LNAI 5253, Springer, Heidelberg, pp. 5868, 2008.
[38] Dasclu, M., Chioc, E.-V., Truan-Matu, ., ASAP Sistem avansat de evaluare a
participanilor la un chat, Revista Interaciune Om-Calculator 2008, Volumul de lucrri
71
Bibliografie
[39]
[40]
[41]
[42]
[43]
[44]
[45]
[46]
[47]
[48]
[49]
[50]
[51]
[52]
[53]
[54]
[55]
[56]
[57]
[58]
[59]
[60]
ale celei de a cincea ediii a Conferinei Naionale de Interaciune Om-Calculator, RoCHI

2008, Editori S.C. Buruga, I. Juvin, Editura Matrix Rom, Bucureti, pp. 105-112, 2008.
Dasclu, M., Truan-Matu, ., Ch.A.M.P. Sistem pentru evaluarea i modelarea
contribuiei participanilor la un Chat, Revista Romn de Interaciune Om-Calculator,
Vol. 2 (2009) Nr.2, Editura Matrix Rom, Bucureti, 2009.
Dasclu, M., Truan-Matu, S., Dessus, P., Utterances Assessment and Summarization in
Chat Conversations, CICLING2010 Complementary Proceedings Volumes, 2010.
Dasclu, M., Rebedea, T., Truan-Matu, S., A Deep Insight in Chat Analysis:
Collaboration, Evolution and Evaluation, Summarization and Search, AIMSA 2010,
LNAI 6304, 191-200, Springer, 2010.
Datar, A., Doddapaneni, N., Khanna, S., Kodali, V., Yadav, A., EGAL - Essay Grading
and Analysis Logic, 2004.
Daud, J., Padr, L., Rigau, G., Mapping WordNets Using Structural Information. 38th
Annual Meeting of the Association for Computational Linguistics (ACL'2000), Hong
Kong, 504-511, 2000.
Davies, S., Poessio, M., Coding Schemas for Co-reference, 2000.
Denber, M., Automatic resolution of anaphora in english. Technical report, Eastman
Kodak Co., Imaging Science Division, 1998.
Dicionar invers, Editura Academiei Republicii Populare Romne, Institutul de
Lingvistic din Bucureti, Bucureti, 1957.
Dong, A., The Latent Semantic Approach to Studying Design Team Communication,
Design Studies, 26(5), 445-461, 2005.
Dong, A., Concept formation as knowledge accumulation: A computational linguistics
study, Artif. Intell. Eng. Des. Anal. Manuf. 20, 1, 35-53, 2006.
Dowell, J., Gladisch, T., Design of Argument Diagramming for Case-based Group
Learning, ACM International Conference Proceeding Series, Vol. 250, 99-105, 2007.
Dysthe, O., The Multivoiced Classroom: Interactions of Writing and Classroom
Discourse, Written Communication, 13.3: 385-425, 1996.
Ekman, P., An argument for basic emotions, Cognition and Emotion, vol. 6(3-4), 1992.
Embleton, S., Uritescu, D., Wheeler, E., Romanian online dialect atlas: Data capture and
presentation, n Peter Grzybek, Reinhard Khler (eds), Exact methods in the study of
language and text, Mouton de Gruyter, Berlin & New York, p. 8796, 2007.
Evans, R., A Comparison of Rule-Based and Machine Learning Methods for Identifying
Non-nominal It in Christodoulakis (Ed.) Proceedings of Natural Language Processing NLP 2000, University of Patras, Greece, 2 - 4 June 2000, Springer-Verlag, Germany, pp.
233 241, 2000.
Evans, R., Applying Machine Learning Toward an Automatic Classification of It. Literary
and Linguistic Computing 16;1, 45-57, 2001.
Fellbaum, Ch. (ed.), WordNet: An Electronic Lexical Database, MIT Press, 1998.
Foltz, P., Laham, D., Landauer, T., The Intelligent Essay Assessor: Applications to
Educational Technology, Interactive Multimedia Electronic Journal of ComputerEnhanced Learning, 1(2), 1999.
Gangemi, A., Guarino, N., Masolo, C., Oltramari, A., Schneider, L., Sweetening
Ontologies with DOLCE, EKAW 2002, 2002.
Gartner, A., Polyphony, un sistem de chat bazat pe cunotine, in tefan Truan-Matu
(Ed.), Interaciunea conversaional n sistemele colaborative pe Web, Seria Interaciune
om-calculator, Editura Matrix Rom, Bucureti, 2008.
Geldbach, S., Anaphora and Translation Discrepancies in Russian-German MT. Machine
Translation, 14(3/4), 217-230, 1999.
Golbeck, J., Mutton, P., Semantic Web Interaction on Internet Relay Chat, Proceedings of
Interaction Design on the Semantic Web, May 2004, New York, 2004.
72
Bibliografie
[61] Graesser, A.C., Chipman, P., Haynes, B.C., Olney, A., Autotutor: an Intelligent Tutoring
System with mixed-initiative dialogue, IEEE Transactions on Education, 48(4):612618,
2005.
[62] Grondlund, N. E., Measurement and evaluation in teaching, New York: Macmillan,
1985.
[63] Grosz, B. J., Joshi, A. K., and Weinstein, S. Centering: A framework for modeling the
local coherence of discourse. Computational Linguistics, 21(2), 203225, 1995.
[64] Gruber, T.R., A translation approach to portable ontologies. Knowledge Acquisition,
5(2), 1993.
[65] Guarino, N., Giaretta, P., Ontologies and Knowledge Bases: Towards a Terminological
Clarification. In N. Mars (ed.) Towards Very Large Knowledge Bases: Knowledge
Building and Knowledge Sharing 1995, IOS Press, Amsterdam, 1995.
[66] Hahn, U., Strube, M., Markert, K., Bridging textual ellipses, in Proc. of COLING96,
1996.
[67] Hamburger, H., Tufi, D., Hashim, R., Structuring Two-Medium Dialog for Learning
Language and Other Things, In Owen Rambow (ed.), Proceedings of the ACL Workshop
on Intentionality and Structure in Discourse Relations, pp. 27-34, Columbus, Ohio, USA,
Association for Computational Linguistics, June 1993.
[68] Harrer, A., Hever, R., Ziebarth, S., Empowering Researchers to Detect Interaction
Patterns in E-collaboration, Frontiers in Artificial Intelligence and Applications, vol.
158, 503-510, 2007.
[69] Hearst, M., The debate on automated essay grading, IEEE Intelligent Systems, 15(5), 2237, IEEE CS Press, 2000.
[70] Hmelo-Silver, C.E., Chernobilsky, E., Masto, O., Representation for Analyzing Toolmediated Collaborative Learning, Proceedings of ICLS 2006, New Brunswick, 2006.
[71] Holmer, T., Kienle, A., Wessner, M., Explicit Referencing in Learning Chats: Needs and
Acceptance, in Nejdl, W., Tochtermann, K., (eds.), Innovative Approaches for Learning
and Knowledge Sharing, First European Conference on Technology Enhanced Learning,
EC-TEL 2006, Lecture Notes in Computer Science, 4227, Springer, pp. 170-184, 2006.
[72] Hristea, F., Introducere n procesarea limbajului natural, Editura Universitii din
Bucureti, 2010.
[73] Hritcu,
M.,
Rezoluia
anaforei,
http://consilr.info.uaic.ro/ro/resources/res/11_GenFrame+%20-%20lucrare%20diploma.
[74] Iftene, A., Trandab, D., Pistol, I., Extragerea automat a definiiilor din texte n limba
romn, Lucrrile atelierului Resurse lingvistice i instrumente pentru prelucrarea limbii
romne, Iai, Editori: Pistol, I.C., Cristea, D., Tufi, D., Editura Universitii Alexandru
Ioan Cuza, 2007.
[75] Ion, R., Segmentarea n uniti textuale atomice a intrrilor din dicionarul limbii
romne n vederea analizei structurale, Lucrrile atelierului Resurse lingvistice i
instrumente pentru prelucrarea limbii romne, Iai, Editori: Trandab, D.M., Cristea, D.,
Tufi, D., Editura Universitii Alexandru Ioan Cuza, 2008.
[76] Ishioka, T., Kameda, M., Automated Japanese Essay Scoring System: Jess, Proceedings
of the 15th International Workshop on Database and Expert Systems Applications, pages
48, 2004.
[77] Joshi, M., Ros, C. P., Using Transactivity in Conversation Summarization in
Educational Dialog. In Proceedings of the SLaTE Workshop on Speech and Language
Technology in Education, 2007.
[78] Jurafsky, D. and Martin, J.H., Speech and Language Processing. An Introduction to
Natural Language Processing, Computational Linguistics, and Speech Recognition.
Second Edition, Pearson Prentice Hall, 2009.
[79] Kakkonen, T., Myller, N., Timonen, J., Sutinen, E., Automatic Essay Grading with
73
Bibliografie
[80]
[81]
[82]
[83]
[84]
[85]
[86]
[87]
[88]
[89]
[90]
[91]
[92]
[93]
[94]
[95]
[96]
Probabilistic Latent Semantic Analysis, In Proceedings of the 2nd Workshop on Building

Educational Applications Using NLP, Association for Computational Linguistics, pages
2936, 2005.
Kameyama, M., Recognizing referential links: an information extraction perspective, in
Proceedings of a Workshop on Operational Factors in Practical, Robust Anaphora
Resolution for Unrestricted Texts, 1997.
Kennedy, C., Bogureav, B., Anaphora for everyone: Pronominal anaphora resolution
without a parser, In Proceedings of the 16th International Conference on Computational
Linguistics (COLING-96). Ruslan Mitkov. 1998. Robust pronoun resolution with limited
knowledge. In Proceedings of COLING-ACL98, pages 869-875, 1996.
Kontostathis, A. , Edwards, L., Bayzick, J., McGhee, I., Leatherman, A. and Moore, K.,
Comparison of Rule-based to Human Analysis of Chat Logs, In 1st International
Workshop on Mining Social Media Programme, Conferencia de la Asociacin Espaola
para la Inteligencia Artificial, 2009.
Krovetz, R., Viewing morphology as an inference process, In Proceedings of the 16th
Annual International ACM SIGIR Conference on Research and Development in
Information Retrieval, pages 191203, 1993.
Landauer, K.Th., Foltz, W.P., Laham, d., An Introduction to Latent Semantic Analysis.
Discourse Processes, 25, 259-284, 1998.
Landauer, T.K., Laham, D., Foltz, P.W., The intelligent essay assesor: putting knowledge
to the test, In Proceedings of the Association of Test Publishers Computer-Based Testing:
Emerging Technologies and Opportunities for Diverse Applications conference, 2001.
Lappin, S., Leass, H., An Algorithm for Pronominal Anaphora Resolution, Computational
Linguistics, Vol. 20, Nr. 4, http://acl.ldc.upenn.edu/J/J94/J94-4002.pdf.
Larkey, L.S., Automatic essay grading using text categorization techniques, In
Proceedings of the 21st Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval, pages 9095, 1998.
Larkey, L., Croft, S., Bruce, W., A Text Categorization Approach to Automated Essay
Grading, pages 5570. Lawrence Erlbaum, 2003.
Leass, H., Anaphora Resolution for Machine Translation: A Study, IWBS Report 187,
Stuttgart: IBM Deutschland, 1991.
Leass, H., Schwall, U., An Anaphora Resolution Procedure for Machine Translation,
IWBS Report 172, IBM Germany Scientific Center, Heidelberg, Germany, 1991.
Lemnitzer, L., Degrski, L. Language Technology for eLearning - Implementing a
Keyword Extractor. The fourth EDEN Research Workshop "Research into online
distance education and eLearning. Making the Difference", 25-28 October, 2006 in
Castelldefels, Spain, 2006.
Lemnitzer, L., Vertan, C., Killing, A., Ivanov Simov, K., Evans, D., Cristea, D.,
Monachesi, P., Improving the Search for Learning Objects with Keywords and
Ontologies, In Creating New Learning Experiences on a Global Scale, EC-TEL 2007,
Lecture Notes in Computer Science, vol. 4753/2007, pp. 202-216, ISBN 978-3-54075194-6, 2007.
Lenat, D., Guha, R.V., Building Large Knowledge-Based Systems: Representation and
Inference in the Cyc Project, Addison-Wesley, 1990.
Linell, P., Rethinking Language, Mind and World Dialogically, Information Age
Publications, Greenwich, 2009.
Liscombe, J., Riccardi, G., Hakkani-Tur, D., Using Context to Improve Emotion
Detection in Spoken Dialog Systems, INTERSPEECH 2005, p. 1845-1848, Lisbon,
Portugal, 2005.
Liu, B., Chin, C. W., Ng, H. T., Mining Topic-Specific Concepts and Definitions on the
Web. In Proc. of the Twelfth Int. WWW Conference 2003.
74
Bibliografie
[97] Lu, C.-Y., Hong, J.-S. Cruz-Lara, S., Emotion Detection in Textual Information by
Semantic Role Labelling and Web Mining Techniques, Third Taiwanese-French
Conference on Information Technology - TFIT 2006,
http://hal.inria.fr/inria00105649/en/, 2006.
[98] Lust, B., Studies in the Acquisition of Anaphora, D. Reidel, 1986.
[99] Lutticke, R., Graphic and NLP Based Assessment of Knowledge about Semantic
Networks, In Proceedings of the Artifical Intelligence in Education (AIED) conference,
2005.
[100] Magnini, B., Cavaglia, G., Integrating subject field codes into Wordnet, Second
International Conference on Language Resources and Evaluation (LREC 2002), Athens,
Greece, 2002.
[101] Mann, W. C. and Thompson, S.A., Rhetorical structure theory: A theory of text
organization. Tech. rep. RS-87-190, Information Sciences Institute, 1987.
[102] Manning, C., Schtze, H., Foundations of statistical Natural Language Processing, MIT
Press, Cambridge (Mass.), 1999.
[103] Mason, O. & Grove-Stephenson, I., Automated free text marking with paperless school,
In M. Danson (Ed.), Proceedings of the Sixth International Computer Assisted
Assessment Conference, Loughborough University, Loughborough, UK., 2002.
[104] McCallum, A., Nigam, K., A comparison of event models for naive bayes text
classification, In AAAI-98 Workshop on Learning for Text Categorization, 1998.
[105] Mercer, N., Words and minds. How we use language to think together, Routledge, 2000.
[106] Miller, G.A., Nouns in WordNet: A Lexical Inheritance System, International Journal of
Lexicography, 3(4), p.245-264, 1990.
[107] Miller, G.A., Beckwith, R., Fellbaum, C., Gross, D., Miller, K., WordNet: an on-line
lexical database, Journal of Lexicography, 3(4), p.234-244, 1990.
[108] Miller, G.A., WordNet: A lexical database, Communications of ACM, 38(11), p.39-41,
1995.
[109] Miller, T., Latent semantic analysis and the construction of coherent extracts, In:
Nicolov, N., Botcheva, K., Angelova, G. and Mitkov, R. (eds.), RecentAdvances in
Natural Language Processing III, John Benjamins, pp. 277-286, 2004.
[110] Miller, G.A., Hristea, F., WordNet Nouns: Classes and Instances, Computational
Linguistics, 32(1), The MIT Press, p. 1-3, 2006.
[111] Ming, Y., Mikhailov, A., Kuan, T.L., Intelligent essay marking system. Learners
Together, 2000.
[112] Mitchell, T., Russell, T., Broomhead, P., Aldridge, N., Towards robust computerised
marking of free-text responses, 2002.
[113] Mitkov, R., Lee, K.H., Kim, H.G., Choi, K.S., English-to-Korean Machine Translation
and anaphora resolution, J. Literary and Linguistics Computing, 12:1, 1997.
[114] Mitkov, R., Schmidt, P., On the complexity of anaphora resolution in Machine
Translation, Carlos Martin-Vide, Ed., Mathematical linguistics II, John Benjamins,
1997.
[115] Mitkov, R., Robust pronoun resolution with limited knowledge, in Proceedings of the
18th International Conference on Computational Linguistics (COLING'98)/ACL'98
Conference, 869-875. Montreal, Canada, 1998.
[116] Mitkov, R., Belguith, L. and Stys, M., Multilingual robust anaphora resolution in
Proceedings of the Third International Conference on Empirical Methods in Natural
Language Processing (EMNLP-3), 7-16, Granada, Spain, 1998.
[117] Monachesi, P., Cristea, D., Evans, D., Killing, A., Lemnitzer, L., Simov, K., Vertan, C.,
Integrating Language Technology and Semantic Web Techniques in eLearning,
Proceeding of ICL 2006.
[118] Morton, T., Using coreference for question answering, Proceeding of the ACL99
75
Bibliografie
Workshop on Coreference and its Applications (College Park, Md.), 1999.

[119] Murean, S. and Klavans, J., A Method for Automatically Building and
Evaluating Dictionary Resources. Proceedings of LREC 2002.
[120] Nakaiawa, Hiroshi, A., Yokoo, S., Ikehara, A system of verbal semantic attributes focused
on the syntactic correspondence between Japanese and English, Proc. 15th International
Conference on Computational Linguistics (COLING 94), Kyoto, Japan, 1994.
[121] Newman, M. E. J., The mathematics of networks, http://www-personal.umich.edu/~mejn
/papers/palgrave.pdf
[122] Niles, I, Pease, I. Towards a Standard Upper Ontology. In Proceedings of the 2nd
International Conference on Formal Ontology in Information Systems, Ogunquit, Maine,
2001.
[123] Niles, I., Pease, A., Linking Lexicons and Ontologies: Mapping WordNet to the Suggested
Upper Merged Ontology. Proceedings of the 2003 International Conference on
Information and Knowledge Engineering (IKE 03), Las Vegas, Nevada, June 23-26,
2003.
[124] Noy, N., McGuinness D.L., Ontology Development 101: A Giude to Creating Your First
Ontology Stanford Knowledge Systems Laboratory Technical Report KLS-01-05,
Stanford Medical Informatics Technical Report SMI-2001-0880, March 2001.
[125] Olariu, F.T., Olariu, V., O sut de ani de cartografie lingvistic romneasc un bilan
deschis,
Philologica
Jassyensia,
An
VI,
Nr.
1
(11),
2010,
(http://iit.iit.tuiasi.ro/philippide/asociatia/asociatia_admin/upload/VI_1_Olariu.pdf)
(accesat 2011)
[126] Onofreiciuc, C., Roiu, A., Gartner, A., Truan-Matu, , Polyphony, a Knowledge-based
Chat System Supporting Collaborative Work, n Badica, C., Paprzycki, M., (Eds.),
Advances in Intelligent and Distributed Computing, Proceedings of IDC, Studies in
Computational Intelligence Vol. 78, Springer, pp. 155-164, 2007.
[127] Ortony, A., Clore, G.L., Foss, M.A., The psychological foundations of the affective
lexicon, Journal of Personality and Social Psychology, American Psychological
Association, vol. 53, 1987.
[128] Page, E.B., The imminence of grading essays by computer, Phi Delta Kappan, 47(1):238
243, 1966.
[129] Page, E.B., Paulus, D.H., Analysis of essays by computer. Predicting Overall Quality,
U.S. Departament of Health, Education and Welfare, 1968.
[130] Page, L., Brin, S., Motwani, R., and Winograd, T., The pagerank citation ranking:
Bringing order to the web. Technical report, Stanford Digital Library Technologies
Project, 1998.
[131] Paice, C.D., Husk, G.D., Towards the automatic recognition of anaphoric features in
English text: the impersonal pronoun it, Computer Speech and Language, 2:109132,
1987.
[132] Palomar, M., Ferrndez, A., Moreno, L., Martnez-Barco, P., Peral, J., Saiz-Noeda, M.,
Muoz, R., An Algorithm for Anaphora Resolution in Spanish Texts, Computational
Linguistics 27(4): 545-567, 2001.
[133] Paov, I., Truan-Matu, ., Rebedea, T., Sistem de evaluare a participrii unui student
la un forum de discuii, Revista Romn de Interaciune Om-Calculator 2011, Numr
special: Conferina Naional de Interaciune Om-Calculator, RoCHI 2011, Editori
Truan-Matu, ., Tufi, D., Editura Matrix Rom, Bucureti, 2011.
[134] Prez, D., Automatic evaluation of users short essays by using statistical and shallow
natural language processing techniques. Advanced Studies Diploma (Escuela Politecnica
Superior, Universidad Autonoma de Madrid), 2004.
[135] Prez, D., Postolache, O., Alfonseca, E., Cristea, D., Rodriguez, P., About the effects of
using Anaphora Resolution in assessing free-text student answers. In Proceedings of the
76
Bibliografie
RANLP-2005 Conference, Borovets, Bulgaria, 21-23 September 2005, pp. 380-386,

2005.
[136] Prez, D., Adaptive Computer Assisted Assessment of free-text students answers: an
approach to automatically generate students conceptual models, PhD Thesis under the
supervision of Alfonseca E., and Rodriguez, P., Universidad Autonoma de Madrid, 2007.
[137] Pistol, I., Iftene, A., Trandab, D., Cristea, D., Forscu, C., Prelucrarea resurselor
romneti n cadrul proiectului LT4EL, Lucrrile atelierului Resurse lingvistice i
instrumente pentru prelucrarea limbii romne, Iai, Editori: Forscu C., Tufi, D., Cristea,
D., Editura Universitii Alexandru Ioan Cuza, 2006.
[138] Poesio, M., Coreference, http://www.ims.uni-stuttgart.de/projekte/mate/mdag/cr/
cr_1.html
[139] Posea, V., Prelucrri bazate pe cunotine n aplicaiile colaborative pe webul semantic,
in tefan Truan-Matu (Ed.), Interaciunea conversaional n sistemele colaborative pe
Web, Seria Interaciune om-calculator, Editura Matrix Rom, Bucureti, 2008.
[140] Rebedea, T., Dasclu, M., Truan-Matu, ., Teodorescu, A., Ene, A., PolyCAFE: Sistem
avansat de evaluare a conversaiilor de tip chat bazat pe modelul polifonic, Revista
Romn de Interaciune Om-Calculator 2011, Numr special: Conferina Naional de
Interaciune Om-Calculator, RoCHI 2011, Editori Truan-Matu, ., Tufi, D., Editura
Matrix Rom, Bucureti, 2011.
[141] Roschelle, J. Learning by collaborating: Convergent conceptual change, In T.
Koschmann (Ed.), CSCL: Theory and practice of an emerging paradigm, pp. 209-248,
Hillsdale, NJ: Lawrence Erlbaum Associates, 1996.
[142] Ros, C.P., Roque, A., Bhembe, D., VanLehn, K., A hybrid text classification approach
for analysis of student essays, In HLT-NAACL Workshop on Building Educational
Applications Using Natural Language Processing, pages 6875, 2003.
[143] Ros, C. P., Wang, Y.C., Cui, Y., Arguello, J., Stegmann, K., Weinberger, A., Fischer, F.,
Analyzing Collaborative Learning Processes Automatically: Exploiting the Advances of
Computational Linguistics in Computer-Supported Collaborative Learning, International
Journal of Computer Supported Collaborative Learning, 2007.
[144] Rudner, L.M., Liang, T., Automated Essay Scoring Using Bayes Theorem, In
Proceedings of the annual meeting of the National Council on Measurement in Education,
2002.
[145] Sacks, H., Schegloff, E. A., & Jefferson, G. A simplest systematics for the organization of
turn-taking for conversation. Language, 50(4), 696-735, 1974, www.jstor.org.
[146] Sacks, H., Lectures on conversation, Oxford, UK: Blackwell, 1962/1995.
[147] Saggion, H., Calvalho, A., Anaphora Resolution in Machine Translation System,
Proceedings of the International Conference: Machine Translation, 10 Years On,
Cranfield, UK, November 12-14, 1994.
[148] Sala, M., Dicionarul limbii romne (DLR), In Dan Tufi (ed.), Limbaj i Tehnologie,
Editura Academiei Romne, Bucureti, 1996.
[149] Schapire, R.E., Singer, Y., BoosTexter: A boostingbased system for text categorization,
Machine Learning, 39(2/3), p. 135-168, 2000.
[150] Schmidt, A.P., Stone, T.K.M., Detection of topic change in IRC chat logs,
http://www.trevorstone.org/school/ircsegmentation.pdf. (accesat 2011)
[151] Shaikh, M., Prendinger, H., Ishizuka, M., Emotion sensitive news agent: An approach
towards user centric emotion sensing from the news, The 2007 IEEE/WIC/ACM
International Conference on Web Intelligence (WI-07), p. 614-620, 2007.
[152] Shermis, M.D., Koch, C.M., Page, E.B., Keith, T.Z., Harrington, S., Trait rating for
automated essay scoring, Educational and Psychological measures, 62:518, 2002.
[153] Sinclair, J., Intuition and annotation - the discussion continues. In Advances in corpus
linguistics. Papers from the 23rd International Conference on English Language Research
77
Bibliografie
on Computerized corproa (ICAME 23). Gteborg 22-26 May 2002., eds. Karin Aijmer
and
Bengt
Altenberg,
39-59.
Amsterdam/New
York:
Rodopi,
2004,
http://www.ingentaconnect.com/content/rodopi/lang/2004/00000049/00000001/art00003.
[154] Sowa, J.F., Ontology, http://www.jfsowa.com/ontology/ (accesat 2011)
[155] Stahl, G., Group Cognition: Computer Suport for Building Collaorative Knowledge, MIT
Press, 2006, http://GerryStahl.net/mit/.
[156] Stahl., G. (Ed.), Studying Virtual Math Teams, Springer, Boston, 2009.
[157] Strapparava, C., Valitutti, A., Wordnet-affect: an affective extension of wordnet, 4th
International Conference on Language Resources and Evaluation, 2004.
[158] Strapparava, C., Valitutti, A., Stock, O., The Affective weight of the lexicon, 5th
International Conference on Language Resources and Evaluation (LREC 2006), Genoa,
Italy, 2006.
[159] Sukkarieh, J.Z., Pulman, S.G., Raikes, N., Auto-marking: using computational linguistics
to score short, free text responses, In Proceedings of the 29th IAEA Conference, theme:
Societies Goals and Assessment, 2003.
[160] Tannen, D.. Talking Voices: Repetition, Dialogue, and Imagery in Conversational
Discourse, Cambridge University Press, 1989.
[161] Teplovs, C., The Knowledge Space Visualizer: A Tool for Vizualizing Online Discourse,
Proceedings of the International Conference of the Learning Sciences, 2008.
[162] Tobin,
R.,
Lxtransduce,
a
replacement
for
fsgmatch, http://www.
ltg.ed.ac.uk/~richard/ltxml2/lxtransduce-manual.html (accesat 2011)
[163] Todoroi, D., Chiorescu, A., DEI multimedia: Evoluii, perspective, Lucrrile atelierului
Resurse lingvistice i instrumente pentru prelucrarea limbii romne, Iai, Editori: Forscu
C., Tufi, D., Cristea, D., Editura Universitii Alexandru Ioan Cuza, 2006.
[164] Toulmin, S., The Uses of Arguments, Cambridge Univ. Press, 1958.
[165] Trandab, D., Iftene, A., Pistol, I., Forscu, C., Cristea, D., Resurse romneti n cadrul
proiectului LT4EL, Lucrrile atelierului Resurse lingvistice i instrumente pentru
prelucrarea limbii romne, Iai, Editori: Forscu C., Tufi, D., Cristea, D., Editura
Universitii Alexandru Ioan Cuza, 2006.
[166] Truan-Matu, ., Interfaarea evoluat om-calculator, Editura Matrix Rom, Bucureti,
2000.
[167] Truan-Matu, ., Rebedea, T., Drgan, A., Alexandru, C., Visualisation of Leanerss
Contributions in Chat Conversations, In J. Fong F.L. Wang (Eds.), Blended Learning:
Addison-Wesley, 2007.
[168] Truan-Matu, ., Rebedea, T., Polyphonic Inter-Animation of Voices in VMT, In Stahl,
G. (Ed.), Studying Virtual Math Teams, pp. 451-473, Boston, MA, Springer US, 2009.
[169] Truan-Matu, ., Rebedea, T., A Polyphonic Model and System for Inter-animation
Analysis in Chat Conversations with Multiple Participations, In A. Gelbukh (Ed.),
Cicling 2010, LNCS. 6008, pp. 354-363, Springer Berlin / Heidelberg, 2010.
[170] Tufi, D., Introduction to Computational Linguistics, 1st year, Master in Computational
Linguistics, Faculty of Computer Science, Iasi.
[171] Tufi, D., Hamburger, H., Hashim, R., Pan, J., Generating Natural Language in an
Immersive Language Learning System, In Maddy D. Brouwer-Janse and Thomas L.
Harrington (eds.), Proceedings of NATO-ASI Conference on Basics of Man-Machine
Communication for the Design of Educational Systems, Eindhoven, Netherlands, August
1993.
[172] Tufi, D., Balkanet Tezaur lingvistic multilingv pentru limbile din Balkani, 2002,
http://www.racai.ro/~tufis/papers/Tufis-ILLR2002.pdf, accesat 2011.
[173] Tufi, D., Cristea, C., Ro-Balkanet Ontologie lexicalizat, n context multilingv, pentru
limba romn, http://tutankhamon.racai.ro/~tufis/papers/tufis-cristea-sisc2002.pdf, 2002,
accesat 2011.
78
Bibliografie
[174] Tufi, D., Dragomirescu L., Tiered Tagging Revisited. In Proceedings of the 4th LREC
Conference, Lisabona, 2004.
[175] Tufi, D., Barbu Mititelu, V., Wordnetul romnesc: ontologie lexical n context
multilingv, Interaciune Om-Calculator 2005, Volumul de lucrri ale celei de a doua
Conferine Naionale de Interaciune Om-Calculator, RoCHI 2005, Editori H.D. Pitariu,
S.C. Buruga, Editura ASCR, Cluj-Napoca, 2005.
[176] Tufi, D., Barbu Mititelu, V., Bozianu, L., Mihil, C., Romanian WordNet: New
Developments and Applications. Proceedings of the 3rd Conference of the Global
WordNet Association, Seogwipo, Jeju, Republic of Korea, January 22-26, 337-344, 2006.
[177] Tufi, D., Barbu Mititelu, V., Ceauu, A., Bozianu, L., Mihil, C., Manu Magda M., Noi
dezvoltri ale Wordnet-ului romnesc, Lucrrile atelierului Resurse lingvistice i
instrumente pentru prelucrarea limbii romne, Iai, Editori: Forscu C., Tufi, D., Cristea,
D., Editura Universitii Alexandru Ioan Cuza, 2006.
[178] Tufi, D., Ion, R., Bozianu, L., Ceauu, A., tefnescu, D., Romanian Wordnet: Current
State, New Applications and Prospects, In Attila Tanacs, Dora Csendes, Veronika
Vincze, Christiane Fellbaum and Piek Vossen (eds.), Proceedings of 4th Global WordNet
Conference, GWC-2008, pp. 441-452, Szeged, Hungary, January 2008. University of
Szeged, Hungary, 2008.
[179] Uschold, M., Building Ontologies: Towards A Unified Methodogy. Proc. Expert Systems
96, Cambridge, December 16-18th, 1996.
[180] Valenti, S., Cucchiarelli, A., & Panti M., Web based assessment of student learning. In A.
Aggarwal (Ed.), Web-based Learning & Teaching Technologies, Opportunities and
Challenges, 175-197, Idea Group Publishing, 2000.
[181] Valenti, S., Neri, F., Cucchiarelli, A., An Overview of Current Research on Automated
Essay Grading, Journal of Information Technology Education, vol. 2, p. 319-330, 2003.
[182] Vantage, A study of expert scoring and IntelliMetric scoring accuracy for dimensional
scoring of grade 11 student writing responses, Technical Report RB-397, Vantage
Learning Tech., 2000.
[183] Versley, Y., Ponzetto, S.P., Poesio, M., Eidelman, V., Jern, A., Smith, J., Yang, X.,
Moschitti, A., BART: A Modular Toolkit for Coreference Resolution, Companion Volume
of the Proceedings of the 46th Annual Meeting of the Association for Compuatational
Linguistics, 2008.
[184] Vicedo, J.L., Ferrndez, A., Importance of pronominal anaphora resolution to question
answering systems, In Proceedings of the 38th Annual Meeting of the Association for
Computational Linguistics (ACL), pages 555562, 2000.
[185] Vieira, R., Poesio, M., Processing definite descriptions in corpora, In S. Botley and A.
McEnery (Eds.), Corpus-based and Computational Approaches to Discourse Anaphora,
2000.
[186] Vossen, P. A Multilingual Database with Lexical Semantic Networks, Dordrecht, Kluwer,
1998.
[187] Wada, H., Zibun, R., Discourse Processing in MT: Problems in Pronominal Translation,
Proceedings of the 13th International Conference on Computational Linguistics
(COLING'90), 1990.
[188] Wiemer-Hastings, P., Zipitria, I., Rules for syntax, vectors for semantics, In: Proceeding
of the 23rd Annual Conference of the Cognitive Science Society, 2001.
[189] Wiemer-Hastings, P., Allbritton, D., Arnott, E., RMT: A Dialog-Based Research Methods
Tutor with or without a Head, In Proceedings of the ITS2004 Seventh International
Conference, Berlin, Springer, 2004.
[190] Williams, R., Dreher, H., Automatically Grading Essays with Markit. In Proceedings of
Informing Science 2004 Conference, Rockhampton, Queensland, Australia, 2004.
79
Bibliografie
Adrese Web:
[191] Automark, http://www.intelligentassessment.com
[192] Auto-marking, http://www.ucles.org.uk/
[193] Cognitive Computation Group, University of Illinois, http://cogcomp.cs.illinois.edu/.
[194] C-rater i E-rater, http://www.ets.org
[195] DAMSL,
http://www.cs.rochester.edu/research/cisd/resources/damsl/RevisedManual/,
(accesat 2011).
[196] EGAL, https://sourceforge.net/projects/egal/
[197] ExamOnline, http://www.examonline.co.uk
[198] Idea Works. Sagrader, 2006, http://www.ideaworks.com/sagrader/index.html.
[199] IEA, http://www.knowledge-technologies.com
[200] IntelliMetric, http://www.vantage.com
[201] Jess, http://coca.rd.dnc.ac.jp/jess/
[202] MarkIT, http://www.essaygrading.com/index.jspx
[203] MRW, http://pi7.fernuni-hagen.de/
[204] PEG, http://134.68.49.185/pegdemo/ref.asp
[205] PS-ME, http://www.paperless-school.com
[206] SAGrader, http://www.ideaworks.com.
[207] SEAR, http://www.comp.rgu.ac.uk/staff/jrc/fSEAR.htm
[208] http://www.ceid.upatras.gr/Balkanet/
[209] http://www.uaic.ro/uaic/bin/download/University/profesor_de_onoare/LaudatiofinalTufis.
pdf (accesat 2011)
[210] http://dexonline.ro/ (accesat 2011)
[211] http://wordnet.princeton.edu/ (accesat 2011)
[212] http://www.ceid.upatras.gr/Balkanet/ (accesat 2011)
[213] http://www.illc.uva.nl/EuroWordNet/ (accesat 2011)
[214] http://www.istworld.com/ProjectDetails.aspx?ProjectId=a137b147dead4b75b11d4d8da46e7767&Sourc
eDatabaseId=e08bca13c562437a867a49351857a156 (accesat 2011)
[215] http://publications.europa.eu/eurovoc/index_ro.htm (accesat 2011)
[216] http://www.europeana.ro/index.php/2010/12/13/eurovoc/ (accesat 2011)
[217] http://www.editura.uaic.ro/site/fisa-carte.php?id_d=d05&id_c=657 (accesat 2011)
[218] http://www.yorku.ca/vpaweb/romanian/index.htm (accesat 2011)
[219] http://www.yorku.ca/vpaweb/ romanian/ data/atlas.htm (accesat 2011)
[220] http://profs.info.uaic.ro/~ipistol/tlu/res/wsdusingwn.pdf (accesat 2011)
[221] https://consilr.info.uaic.ro/edtlr/wiki/index.php?title=Despre_proiect (accesat 2011)
[222] http://multiwordnet.fbk.eu/english/home.php (accesat 2011)
[223] http://wndomains.fbk.eu/ (accesat 2011)
[224] http://www.cse.unt.edu/~rada/affectivetext/ (accesat 2011)
[225] http://lilu.fcim.utm.md/ (accesat 2011)
[226] http://www.globalwordnet.org/ (accesat 2011)
[227] http://www.globalwordnet.org/gwa/wordnet_table.htm (accesat 2011)
[228] http://www.ltfll-project.org (accesat 2011)
[229] https://www.cs.pub.ro/index.php/component/project/article/160?lang=ro(accesat 2011)
[230] http://protege.cim3.net/file/pub/ontologies/wine/ (accesat 2011)
[231] http://www.co-ode.org/ontologies/pizza/2007/02/12/ (accesat 2011)
[232] http://sig.biostr.washington.edu/projects/fm/AboutFM.html (accesat 2011)
[233] http://www.geneontology.org/ (accesat 2011)
[234] http://proteinontology.org.au/ (accesat 2011)
[235] http://www.lt4el.eu (accesat 2011)
80
Bibliografie
[236] http://consilr.info.uaic.ro/uploads_lt4el/
[237] http://www.w3.org/XML (accesat 2011)
[238] http://www.loa-cnr.it/DOLCE.html (accesat 2011)
[239] http://www.cilr.cam.ac.uk/
[240] http://consilr.info.uaic.ro/ro/index.php
[241] http://www.streetdirectory.com/travel_guide/15672/writing/all_about_readability_formul
as_and_why_writers_need_to_use_them.html
[242] http://nlp.stanford.edu/software
[243] http://www.ibm.com/developerworks/java/library/j-jazzy/
[244] http://jazzy.sourceforge.net/
[245] http://gate.ac.uk
[246] http://aliasc-i.com/lingpipe/
[247] http://bart-coref.org/
[248] http://sourceforge.net/projects/concertchat/
[249] http://protege.stanford.edu/
[250] http://www.orgnet.com/sna.html
[251] http://snowball.tartarus.org/
[252] http://lsa.colorado.edu
[253] http://prefuse.org/
[254] http://www.scritube.com/stiinta/informatica/Rezolutia-anaforei14131783.php
[255] http://consilr.info.uaic.ro/ro/resources/pre/
[256] http://en.wikipedia.org/wiki/STUDENT_(computer_program)
[257] http://www-it.fmi.uni-sofia.bg/larflast/
[258] http://www.springerlink.com/content/wdu6nmyhvl9m20n2/, Truan-Matu, , Metaphor
Processing for Learning Terminology on the Web, S.A. Cerri and D. Dochev (Eds.):
AIMSA 2000, LNAI 1904, pp. 232-241, Spriger-Verlag Berlin Heidelberg, 2000.
[259] http://sterling.ddns.comp.nus.edu.sg/~nakov/selected_papers_list/nakov_ECAI02.pdf,
Angelova, G., Boytcheva, S., Kalaydjiev, O., Trausan-Matu, ., Nakov, P., Strupchanska,
A., Adaptivity in Web-Based CALL, In Proceedings of 15th European Conference on
Artificial Intelligence, Lyon, IOS Press, 2002.
[260] http://www.arnetminer.org/viewpub.do?pid=458970, Truan-Matu, ., Maraschi, D.,
Cerri, S., Ontology-Centered Personalized Presentation of Knowledge Extracted From
the Web, in S.Cerri, G.Gouarderes (eds.), Intelligent Tutoring Systems 2002, Springer,
2002.
81
Glosar de abrevieri
GLOSAR DE ABREVIERI
ADL Advanced Distributed Learning (nvare distribuit avansat)
AEA Automatic Essay Assessor
ALAB Atlasul lingvistic audiovizual al Bucovinei
ALR Atlas lingvistic romn
AMPER Atlas multimdia prosodique de lespace roman
AR Anaphora Resolution (Rezoluia anaforei)
ASAP An Advanced System for Assessing Chat Participants (Sistem avansat pentru evaluarea
partcipanilor la un chat)
ATM Automated Text Marker
BETSY The Bayesian Essay Test Scoring sYstem
CAA Computer Assisted Assessment (Evaluare asistatR de calculator)
CbAS Computer-based Assessment System (Sistem de evaluare bazat pe calculator)
Ch.A.M.P. Chat Assesment and Modeling Program (Program de evaluare i modelare a
contribuiei participanilor la chat)
CILR Cambridge Institute of Language Research
CONCEDE CONsortium for Central and Eastern Dictionaries Encoding
CoP Community of Practice (comunitatea de practic)
CSCL Computer Supported Collaborative Learning (nvare colaborativ bazat pe calculator)
CSF Common Semantic Framework (Cadrului semantic comun)
DA Dicionarului Academiei
DE Discourse Entity (entitate de discurs)
DEX dicionar explicativ al limbii romne
DILR Dicionarului invers al limbii romne
DLR Dicionarul Limbii Romne
DTD Document Type Definition
DTLR Dicionarul Tezaur al Limbii Romne
EGAL The Essay Grading and Analysis Logic
ETS Educational Testing Service
FLSS Formal Learning Support System Course Editing Service
GMAT Graduate Management Admission Test
GWA Global WordNet Association
IAC Instruirea asistat de calculator
ICAI Intelligent Computer Assisted Instruction (Instruire inteligent asistat de calculator)
ICAL Intellligent Computer Assisted Learning (nvare asistat de calculator prin sisteme
inteligente)
ICT Information and Communication Technology (Tehnologia informaiei i comunicrii)
IE Information Extraction (extragere a informaiei)
IEA The Intelligent Essay Assessor
IEMS The Intelligent Essay Marking System
iFLSS Informal Learning Support Service to Locate Content and Peers
ILI index interlingual
IRC Internet Relay Chat
ITAL Interactive Technologies in Assessment and Learning
Jess The Japenese Essay Scoring System
LarFLaST LeARning Foreign Language Scientific Terminology
82
Glosar de abrevieri
LCMS Learning Content Management System (Sistem pentru managementul coninutului

nvrii)
LDA Latent Dirichlet Allocation (Alocaia Latent Dirichlet)
LDB Lexical Database (baz de date lexical)
LeaPos Leaner Positioning Service
LMS Learning Management System (Sistem pentru managementul nvrii)
LSA Latent Semantic Analysis
LT4eL Language Technology for eLearning (Tehnologii Lingvistice pentru e-Learning)
LTfLL Language Technologies for Lifelong Learning (Tehnologii lingvistice pentru nvare
continu)
MDN Marele dicionar de neologisme
MLE - Managed Learning Environment (Mediu de management al nvrii)
MRW MultiNet Working Bench
NALR Noul atlas lingvistic romn
NLP Natural Processing Language (Procesarea limbajului natural)
PEG The Project Essay Grader
PenSum Online Synthesis Advisor
PLE personal learning environment (mediu de nvare personal)
PLSA Probabilistic Latent Semantic Analysis (Analiza Semantic Latent Probabilistic)
PolyCAFe Chat & Forum Analysis and Feedback System
PS projection structure (structur de proiectare)
PS-ME The Paperless School Marking Engine
RARE Robust Anaphora Resolution Engine
RE referential expression (expresie referenial)
RMT The Research Methods Tutor
SAGrader The Semantic Analysis Grader
SEAR The Schema Extract Analyse and Report
SMCI Sistem de management al coninutului nvrii
SM Sistem de Management al nvrii
SNA Social Network Analysis
SVD descopunerea n valori singulare
TCT Text Categorization Techniques (tehnici de categorizarea textelor)
TEL Technology-enhanced Learning (nvarea mbuntit cu ajutorul tehnologiei)
Tf-Idf term frequency inverse document frequency (frecvena termenilor invers proporional cu
frecvena documentelor)
VLE Virtual Learning Environment (Mediu virtual de nvare)
XML Extensible Markup Language
83

Referat

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Referat

Încărcat de

Drepturi de autor:

Formate disponibile

Academia Romn

INSTITUTUL DE CERCETARI PENTRU INTELIGEN ARTIFICIALA

INTEGRAREA PRELUCRRII LIMBAJULUI

CAPITOLUL 1 RESURSE LINGVISTICE UTILIZABILE N E-LEARNING....

CAPITOLUL 2 PROIECTUL TEHNOLOGII LINGVISTICE PENTRU

2.1. Prezentare general............................................

CAPITOLUL 3 PROIECTUL TEHNOLOGII LINGVISTICE PENTRU

3.1. Aspecte generale...........................................................................

CAPITOLUL 4 UTILIZAREA REZOLUIEI ANAFOREI N ELEARNING....

4.1. Rezoluia anaforei ..........................................

CAPITOLUL 5 ALTE PROIECTE SEMNIFICATIVE..........................................

5.1. Sisteme CAA de evaluare a rspunsurilor sub form de text ale

aceasta le furnizeaz un feedback care i informeaz ct de bine au fost nelese de

permite acestora s in o eviden fiecrui student, prin colectarea informaiilor

pentru a-i controla progresul n acumularea cunotinelor;

pentru a-i identifica locul n cadrul grupului;

pentru a le furniza feedback-ul coninnd informaii referitoare la conceptele i datele

pentru mbuntirea procesului de instruire, n vederea perfecionrii sistemului de

Cap.1. Resurse lingvistice utilizabile n e-Learning

Cap.1. Resurse lingvistice utilizabile n e-Learning

Dicionarul Limbii Romne (DLR) este continuarea Dicionarului Academiei1 (DA) a

Fig. 1.1. dex online (preluat din [210])

Cap.1. Resurse lingvistice utilizabile n e-Learning

Cap.1. Resurse lingvistice utilizabile n e-Learning

o poat utiliza singuri. De asemenea, organizarea interfeei trebuie s ofere posibilitatea

Fig. 1.2. D.E.I. Multimedia Online (preluat din [163])

Cap.1. Resurse lingvistice utilizabile n e-Learning

Fig. 1.3. Tezaurul EuroVoc (preluat din [215])

1.3. Atlase lingvistice electronice

Cap.1. Resurse lingvistice utilizabile n e-Learning

Cap.1. Resurse lingvistice utilizabile n e-Learning

Cap.1. Resurse lingvistice utilizabile n e-Learning

Dup o perioad de testri i mbuntiri a variantelor succesive ale aplicaiei software, n

Cap.1. Resurse lingvistice utilizabile n e-Learning

1.4. Ontologii lexicale

Aplicaia poate fi deja descrcat i testat la adresa web [219]

Cap.1. Resurse lingvistice utilizabile n e-Learning

Cap.1. Resurse lingvistice utilizabile n e-Learning

Fig. 1.7. WordNet (preluat din [211])

Cap.1. Resurse lingvistice utilizabile n e-Learning

Cap.1. Resurse lingvistice utilizabile n e-Learning

Fig. 1.9. EuroWordNet (preluat din [213])

specialiti, membrii ai Consoriului de informatizare pentru Limba Romn ([240]).

n cadrul proiectului BalkaNet ([212]) au fost adoptate o serie de extensii conceptuale, fr

Cap.1. Resurse lingvistice utilizabile n e-Learning

Fig. 1.10. BalKaNet (preluat din [214])

1.4.4. Wordnet-ul romnesc

Cap.1. Resurse lingvistice utilizabile n e-Learning

experii lingviti implicai n proiect ([177]).

Fig. 1.11. Interfaa online a MultiWordNet (preluat din [222])

Cap.1. Resurse lingvistice utilizabile n e-Learning

Cap.1. Resurse lingvistice utilizabile n e-Learning

n 2005, un corpus comun coninnd 2.000.000.000 cuvinte.

Corpus cu limbajul copiilor, cu limbajul strinilor, cu limbaj dialectal etc.

acoper toate varietile relevante de limb i vocabularul comun al limbii;

introduce dimensiunea diacronic a limbajului;

este un derivat al corpusurilor de referin pentru care activitatea de ntreinere se

deschide posibilitatea cercetrilor susinute de date obiective n domeniul evoluiei

Cap.1. Resurse lingvistice utilizabile n e-Learning

colecia textelor n fiecare limb reprezentat n corpusul paralel trebuie s

criteriile de similaritate sunt dificil de cuantificat, elementul esenial referindu-se la

Cap.2. Proiectul Tehnologii lingvistice pentru e-Leaning (LT4EL)

2.2. Arhitectura i etapele proiectului LT4EL