Sunteți pe pagina 1din 20

ntre lingvistica matematic i cea computaional: o alt

perspectiv
Dan TUFI

1. n loc de introducere
Dat fiind c acest articol este un comentariu asupra filipicei de neneles ntre lingvistica matematic i cea computaional a domnului Solomon Marcus, membru titular al Academiei Romne, mrturisesc c elaborarea sa fost o ntreprindere asupra creia am avut multe ezitri iscate din incertitudinea receptrii sale corecte, constructive. Din pcate majoritatea afirmaiilor i implicaiilor pe care domnia sa le face n articolul amintit, sunt inexacte i umorale. Nu mai insist i asupra decontextualizrii citatelor din lucrarea mea [1], procedeu neelegant. Este binecunoscut din logica clasic faptul c dintr-o serie de premise false se poate demonstra orice. n ciuda ezitrilor amintite, violenta polemic lansat de domnul Solomon Marcus prin articolul menionat mi ofer posibilitatea de a aduce n discuie elemente de istorie a domeniului ce ar putea fi de interes, cu precdere pentru cititorii al cror domeniu de specialitate nu este prelucrarea automat a limbajului natural. Pentru specialitii n domeniul prelucrrii limbajului natural, majoritatea argumentelor pe care le voi aduce sunt bine cunoscute. Ca modalitate de documentare, am optat pentru includerea integral a materialului produs de domnul Academician Marcus, indentat i redat cu caractere italice. De asemenea, am pstrat seciunea domniei sale de referine bibliografice. Lucrrile pe care le-am citat eu sunt documentate n cuprinsul textului, prin includerea referinei complete ntre paranteze rotunde. Singura excepie este lucrarea mea, sursa nemulumirii domnului Marcus, care este referit de amndoi ca [1]. Cititorul va putea face astfel mai uor distincia ntre cele dou categorii de referine. nainte de a proceda la analiza afirmaiilor domnului Academician Marcus, a dori s fac unele precizri: contextul discuiei n [1], ca i n cele ce urmeaz, este cel al tehnologiei limbajului, al cercetrilor foarte intense n ntreaga lume pentru dezvoltarea de sisteme inteligente capabile s faciliteze comunicarea dintre doi sau mai muli conlocutori (oameni sau sisteme software), prin intermediul limbajului natural; n raport cu lucrarea [1] domnul Academician Marcus se oprete cu ndrjire asupra a doar trei fraze interpretate ca atac la persoana sau activitatea sa tiinific i se refer ironic (i dup cum se va vedea n continuare, n mod nejustificat) la alte dou, fcnd abstracie de restul prezentrii care nu are nici o contingen cu domnul Marcus. Domnul Academician are merite pe care nu i le poate lua nimeni, are contribuii importante n mai multe domenii i este creatorul colii romneti de lingvistic matematic. Interesul domniei sale pentru aspectele legate de implementarea pe calculator a programelor de prelucrare a limbajului natural a fost minim. mi reamintesc o discuie pe care am avut-o n anul 1991 la ctva timp dup ce m ntorsesem de la Conferina European de Lingvistic Computaional organizat la Berlin de profesorul Jurgen Knze. Cu acea ocazie, domnul Academician Marcus mi-a mrturisit c l cunoate de mult vreme pe profesorul Knze i c au i colaborat o perioad ct amndoi au avut ca domeniu de preocupri lingvistica matematic. La sfritul anilor 60, mai spunea domnul Marcus atunci, drumurile celor doi s-au desprit, profesorul Knze optnd pentru noua paradigm a lingvisticii computaionale. Domnul Academician Marcus a scris enorm, n domenii extrem de variate, aici m refer n special la cele legate de studiul limbii, i prin urmare era inevitabil s nu ating subiectul foarte actual al prelucrrii automate a limbajului natural. A fcut-o ns detaat de nivelul inerent

perisabil al tehnologiei informatice. O teorie tiinific, un model formal teoretic sau transpus ntr-o implementare a unui program software sunt inevitabil supuse eroziunii timpului, unele mai rapid altele mai lent. Lucrarea [1], despre care discutm, ia n discuie exact acest cadru al investigaiei tehnologice i a msurilor tiinifice, tehnice, organizatorice i chiar legislative pentru a crea o baz peren a cercetrii i dezvoltrii tehnologice privind prelucrarea automat a limbii noastre: resursele computaionale fundamentale ale limbii romne. Societatea Informaional-Societatea Cunoterii este caracterizat de vectori tehnologici i funcionali [M. Drgnescu: Societatea informaional-societatea cunoaterii. Vectorii societii cunoaterii, In Societatea Informaional Societatea cunoaterii (coord. F. Gh. Filip). Ed. Expert, Bucuresti, 2001, 43112.] a cror ignorare este nu numai neproductiv dar i periculoas. n era electronic, este esenial pentru supravieuirea unei limbi ca ea s fie folosit n sistemele de informare electronic afirm fr echivoc Alain Danzin n influentul raport al Comisiei Europene Towards a European Language Infrastructure ntocmit n 1992 prin consultarea a 182 de specialiti din cercetare i industrie. Promovarea limbii romne n contextul informaional al societii cunoterii este un obiectiv actual i de viitor i nu poate fi subiect de disput n viaa tiinific romneasc; dei este un truism, cred c pentru evitarea unor interpretri greite este necesar s subliniez faptul c n dezvoltarea programelor de inteligen artificial, de prelucrare a limbajului natural sau n general n ingineria software, o mulime de discipline matematice (teoria algoritmilor, teoria complexitii, teoria limbajelor formale, teoria categoriilor, statistica matematic i multe, multe altele) sunt fundamente indispensabile n avansul tiinific i tehnologic al acestor discipline (i desigur nu numai al lor). Programarea (ca i matematica elementar) sau utilizarea de produse informatice sunt activiti la ndemna tuturor (de altfel reflectate i n programele colare de nvmnt), dar proiectarea i realizarea de programe software inteligente necesit o pregtire teoretic solid, talent i mult munc. Diferena ntre dou programe care realizeaz aceleai prelucrri dar unul n cteva secunde i altul n cteva ore, apare tocmai din diferena de pregtire teoretic i talent a autorilor lor. domeniul tiinei i tehnologiei informaiei este poate cel mai dinamic sector al activitii creative: Bill Gates spunea c dac de pild industria automobilelor ar fi avut aceeai dinamic cu cea a calculatoarelor, acum o main ar trebui s coste 1 dolar. Fantasticul ritm de dezvoltare al tehnologiei hardware (bazat pe importante descoperiri tiinifice obinute n ultimii 50 de ani) nu a fost nici pe departe egalat de ritmul dezvoltrii n domeniul software. n ciuda acestui decalaj, tiina ingineriei software si-a rennoit instrumentarul teoretic (modele i/sau formalisme) cu o vitez nentlnit n alte domenii tiinifice. Dinamica fr precedent a cunoaterii n tiina i tehnologia informaiei oblig omul de tiin din acest domeniu la o informare continu, din ce n ce mai specializat i mai selectiv. Se estimeaz c n acest domeniu se scriu n fiecare zi mai multe articole dect poate citi un om n ntreaga sa activitate i c informaia mai veche de 15-20 ani este foarte probabil s fie perimat (desigur cu excepiile ce ntotdeauna confirm regula). Evoluia terminologic n acest domeniu este nc o mrturie vie a dinamicii de care aminteam: n domeniul prelucrrii limbajului natural se vorbete acum de ontologii lexicale, de gramatici lexicalizate susinute de ontologii, de analiz (parsing) ontologic, de lingvistica WEB-ului i WEB-ul semantic, de resurse lingvistice standardizate i aa mai departe. referitor la antinomia lingvistic matematic-lingvistic computaional pe care domnul Academician Marcus mi-o atribuie, vreau s precizez c nicicnd nu am afirmat c cele dou domenii se exclud reciproc sau c ar fi n competiie; pur i simplu ele sunt subsecvente din punctul de vedere al relevanei fa de problemele pe care le discutm aici. Exist fr ndoial o filiaie ntre ele, n sensul c lingvistica computaional a preluat o mare parte din instrumentarul lingvisticii matematice (nici nu se putea altfel) dar ce a adus nou lingvistica computaional, pe lng noi modele i formalisme, este n primul rnd de natur metodologic i tehnologic: experimentul i evaluarea. Ceace se numete astzi lingvistic computaional teoretic este n mare msur asimilat cu lingvistica formal modern. Acest segment al lingvisticii computaionale a motenit de la lingvistica matematic cel mai mult i adecvndu-i metodele la

realitile tehnologice a produs i este de ateptat s produc noi rezultate validabile i incorporabile n sisteme automate de prelucrare a limbajului natural. Teoriile i formalismele lingvistice, azi n vog n lingvistica computaional (TAG, LFG, HPSG, CG, CUG), au fost produse de lingvistica formal i prin validarea instanierilor pe segmente de limb netriviale, au devenit instrumente operaionale ale prelucrrii limbajului natural. Dezvoltarea de modele de limb, analiza algoritmilor de prelucrare a limbajului (resursele de calcul necesare unei implementri funcionale, viteza de rspuns), construcia (achiziia) resurselor lingvistice standardizate, gradul de acoperire lingvistic al unei formalizri lingvistice (cunotine lingvistice=resurse lingvistice), sunt doar cteva direcii definitorii ale metodologiei lingvisticii computaionale. n sfrit, n raport cu obiectivele finale urmrite de implementarea unui model de prelucrare a limbajului se remarc n ultimii circa 10 ani o departajare i chiar o competiie (fr ns a fi o antinomie) ntre abordrile introspective-principiale i cele inductive, bazate pe date. Prima categorie de abordri este caracterizat de dezvoltarea prin introspecie tiinific de teorii i formalisme gramaticale computaionale (imensa lor majoritate bazate pe restricii i unificare categorial cu accentuat lexicalizare) i mai apoi instaniate manual de experi lingviti. Cea de a doua abordare, ce ctig foarte mult teren n ultima perioad, este cea bazat pe tehnicile nvrii automate ce pornesc de la premiza c, ntr-un corpus lingvistic reprezentativ i de dimensiuni mari, exist suficient informaie privind regularitile dintr-o limb (cea n care sunt textele ce alctuiesc corpusul lingvistic) astfel nct, tehnici adecvate de nvare automat s fie capabile s construiasc un model de limb robust i de mare acoperire lingvistic. A mai meniona c, n fapt, de multe ori cele dou abordri sunt combinate (cu preponderena uneia dintre ele). ntr-un anumit sens, acest dualism n abordrile modelelor de prelucrare automat a limbajului natural continu a celebr confruntare de idei ntre Chomsky i Piaget susintorii teoriilor nscutului (innate) i respectiv al nvrii n explicarea facultii umane a limbajului.

Cu aceste lmuriri preliminare, voi analiza n continuare afirmaiile domnului Academician Marcus cu sincera speran c cititorii acestui text, dar mai ales domnia sa, vor ntelege c preocuprile mele i ale distinsului profesor au alte obiective, motivaii i desigur modaliti foarte diferite de finalizare. Acest lucru nu nseamn c rezultatele fiecruia dintre noi le anuleaz sau le diminueaz pe ale celuilalt (cu att mai mult cu ct recunoatere internaional exist pentru amndoi). Dup cum la fel de bine diferenele de perspectiv i opinii, naturale n fond, nu nseamn c nu avem a ne spune lucruri interesante unul altuia.

2. O analiz textual
M simt obligat s reacionez la un anumit mod de prezentare a evoluiei ideilor, n cea de a doua jumatate a secolului al XXlea, n articolul [1] al dlui Dan Tufi (de aici mai departe DT), membru corespondent al Academiei Romane. Precizez de la nceput ca nu contest interesul i utilitatea direciei de preocupari prezentate n [1]; am n vedere numai modul n care aceasta direcie este pus in relaie cu alte cercetri dedicate limbajului. Aa i ncepe domnul Academician Marcus articolul solicitat de mine pentru volumul Limba Romn n Societatea Informaional-Societatea Cunoaterii rezultat al proiectului INFOSOC SI-SC: Soluii i strategii n Romnia. S urmrim un prim citat incriminat (care n transcrierea dlui Academician este trunchiat si conine nite ghilimele ce nu-mi aparin; redau mai jos varianta publicat) : [1: p.133]: Din acest punct de vedere (al folosirii calculatorului n prelucrarea limbajului natural precizarea mea), este semnificativ a arta c nsui numele domeniului de cercetare a prelucrrii automate a limbajului natural a suferit modificri reflectnd progresele tiinifice i tehnologice: iniial, desprinzndu se din lingvistica formal, lingvistica matematic a ncercat dezvoltarea unor modele matematice de reprezentare a limbajelor naturale sau formale (n general al aspectului lor sintactic, gramatical), cautnd soluii abstracte de modelare generativ de tip universal a ceea ce se presupunea (la nivelul cunoaterii tiintifice a anilor 1960) a fi facultatea limbajului.

Ce l-a suprat aici pe distinsul polemist? Ne spune chiar domnia sa: Nu tiu ce intelege DT prin lingvistica formal, o sintagm nu prea folosit n perioada de emergen a lingvisticii matematice; exista lingvistica structural (altceva dect ceea ce ar putea fi lingvistica formal, adica bazat pe formalizare n sensul logicii matematice moderne), care desigur a constituit una din sursele lingvisticii matematice (de aici mai departe LM), aa cum i se pot indica i alte surse (biologice, logice, matematice, psihologice etc.) M surprinde ntrebarea retoric cu care ncepe argumentaia, i creia nu-i vd dect un gratuit rol derogativ. Eu nu-mi nchipui c domnia sa nu a auzit de antinomia gramatic descriptiv gramatic formal la limitele extreme ea fiind reprezentat de lucrrile lui O. Jespersen (O. Jespersen: The philosophy of Grammar, Allen & Unwin, London,1924 i Analytical Syntax. Holt Rinehart & Winston, New York, 1937 (republicat n 1969)) i respectiv lucrrile timpurii ale lui Chomsky referitoare la lingvistica generativ. Dac ns m nel, o lectur lmuritoare, este influenta carte editat de Keith Brown i Jim Miller n Pergamon Press, 1996 numit Concise Encyclopedia of Syntactic Theories, cu precdere articolul Descriptive Grammar and Formal Grammar de F. Stuurman, al crui prim capitol se numete chiar Descriptive and Formal Grammar: The Fundamental Opposition. La fel de util este i lucrarea monumental a lui David Crystal The Cambridge Encyclopedia of Language, Cambridge University Press, 1987. Pe de alt parte, o pagin mai ncolo, domnul Academician mrturisete c i domnia sa a folosit termenul de lingvistic formal: n ceea ce privete sintagma lingvistic formal, ea a cpatat o anumit utilizare n anii trzii 1960 i n anii urmtori, iar personal am folosito n unele lucrri, dup cum se va vedea imediat, considerndo oarecum echivalent cu LM (lingvistica matematic); Pentru lmurirea elementului istoric, furnizez n continuare un citat din recenzia lui R.B. Lees (Language, nr. 33, vol 3, 1957, pp375-408) la faimoasa carte a lui Chomsky (Syntactic Structures, Mouton, The Hague, 1957): in a sense, transformational analysis is essentially a formalization of a long-accepted, traditional approach. Citatul apare la pagina 387. Chomsky se pare c a apreciat termenul i l-a adoptat, cel puin n raport cu propria filozofie generativist asupra limbajului. dar factorul determinant n naterea LM, n a doua jumatate a anilor 50, a fost dezvoltarea calculatoarelor electronice i, mpreun cu ea, a primelor preocupri sistematice de LC (prescurtare a lingvisticii computaionale), numite atunci traducere automat, documentare automat, prelucrarea automat a limbajului, cu diverse variante ale lor in engleza (de exemplu, machine translation), francez, rus, german, italian etc. Din aceste preocupari sau inspirat primele modele care au constituit noua disciplin a LM. nainte de a face o serie de precizri istorice mai exacte, vreau s notez c de la nceputul istoriei sale, domeniul traducerii automate a fost i n mare a i rmas un domeniu distict de restul preocuprilor legate de prelucrarea limbajului natural. A mai observa c textul de mai sus, ncearc s sugereze c LM sar fi constituit ca disciplin ulterior LC. Ambiguitatea afirmaiei de mai sus provine din punerea n relaie de concordan temporal a primelor preocupri n domeniul LC cu apariia domeniului n sine. Oricine tie c un anumit domeniu tiinific se cristalizeaz n timp, pe baza unor rezultate tiinifice promitoare, a unor experimente convingtoare (n cazul domeniilor tehnologice). Pn la sedimentarea elementelor definitorii ale unui domeniu de cercetare, pot coexista sau se pot succeda mai multe direcii de cercetare. Dintre acestea unele pot dispare sau i pot diminua foarte mult influena n raport cu motivaia iniial. Ele i pot continua ns existena prin noi motivaii, prin alegerea de noi obiective. Ca element istoric, a preciza c n toate evocrile pe care le-am citit eu, cel ce pentru prima dat a sugerat idea folosirii calculatorului i a tehnicilor de decodificare pentru prelucrarea automat a limbajului natural a fost Waren Weaver n 1946. n 1949 el scrie lucrarea Translation considerata de toti specialistii n traducere automata ca primul document programatic al acestei discipline. n 1952 a avut loc la Universitatea Georgetown din SUA prima conferinta dedicata exclusiv traducerii automate. n 1954, Peter Toma de la Universitatea Georgetown mpreuna cu un grup de cercetatori de la IBM realiza primul experiment de traducere automata (engleza-rusa) folosind un dictionar de 250 de cuvinte si 6 reguli

sintactice de rescriere. Acest sistem avea sa constituie nucleul faimosului program de traducere automata Systran pe care Peter Toma l finalizeaza n 1973. Punctul meu de plecare sa aflat n lucrrile unor Kulagina i Melciuk, puternic implicai n studiile de traducere automat rusfrancez, Yves Lecerf, implicat n problemele de documentare automat, D. G. Hays, implicat n traducerea automat din rus n englez i reciproc, B. Vauqois, cu preocupri de informatic lingvistic la Grenoble. De la ei, ca i de la alti autori similari, am preluat n bun masur tafeta pe care am cutat so duc mai departe. Ceea ce afirm despre mine este valabil pentru cei mai muli cercettori din domeniul LM din anii 1950 i 1960, cum ar fi Maurice Gross, Masami Ito, A. Trybulec i muli alii. Traducerea automat, dar mai ales eecul primelor ncercri de rezolvare a acestui obiectiv nc nerezolvat sau nerezolvat complet, a constituit fr ndoial o motivaie a emergenei LM. Aa cum voi arta pe larg mai departe, eecul proiectelor de traducere automat au fost puse, prin interpretarea unilateral i tendenioas a raportului APLAC, exclusiv pe seama inadecvrii teoriilor lingvistice folosite atunci i a cantonrii n fapticul unor limbi particulare. Teoria facultii nnscute a limbajului lansat de Chomsky, opunndu-se tradiiei tipologice de studiu lingvistic prin diversitatea limbilor, a generat o prodigioas cercetare n direcia determinrii principiilor gramaticii universale, n sperana c identificarea i caracterizarea lor riguroas le-ar putea operaionaliza att pentru explicarea comunicrii umane prin limbaj ct i (un derivat subsidiar al obiectivului lui Chomsky) pentru realizarea de sisteme de traducere automat apropiate de performana uman. Dubioas mi se pare sintagma soluii abstracte, probabil efectul unui obicei binecunoscut de a diaboliza abstractul. Remarca de mai sus m surprinde de dou ori: mai nti pentru c nu este nimic reprobabil n expresia o soluie abstract (ba chiar dimpotriv: abstract = Care rezult din separarea i generalizarea nsuirilor caracteristice ale unui grup de obiecte sau de fenomene care este considerat independent, detaat de obiecte, de fenomene sau de relaiile n care exist n realitate DEX96) i apoi referirea la un obicei binecunoscut (al cui?) de diabolizare a abstractului. Nu neag nimeni c acele soluii abstracte de care aminteam au generat idei valoroase i cercetri computaionale (mai ales n domeniul traducerii automate bazate pe conceptul interlingua) dar rezultatele acestor idei i cercetri nu sunt revendicate nici chiar de Chomsky. n ceea ce privete sintagma lingvistic formal, ea a cptat o anumit utilizare n anii trzii 1960 i n anii urmtori, iar personal am folosito n unele lucrri, dup cum se va vedea imediat, considerando oarecum echivalent cu LM; dar chiar daca nu acceptm aceasta echivalen, nu putem eluda faptul c lingvistica formal se afl n imediata vecinatate a LM. Cu amendamentele cronologice pe care le-am comentat mai devreme, apropierea ntre LM i LF (lingvistica formal) este exact ceea ce am afirmat i eu. DT pretinde ca LM a incercat, sugernd astfel ca ea a euat in tentativa de modelare a limbajului natural. n primul rnd este vorba de modelarea computaional a limbajului. n al doilea rnd nu eu pretind acest lucru, dar sunt perfect de acord cu el. Iat cteva opinii ale unor mari specialiti, activi, din domeniul prelucrrii automate a limbajului natural (sublinierile mi aparin): - Cristopher Manning and Hinrich Shutze: Foundations of Statistical Natural Language Processing, The MIT Press, 1998: the availability of large text corpora has changed the scientific approach to language in linguistics and cognitive science. Phenomena that were not detectable or seemed uninteresting in studying toy domains and individual sentences have moved into the center field of what is considered important to explain. - Susan Amstrong-Warwick (editor): Prefaa la Special Issue on Using Large Corpora, Computational Linguistics, Volume 19, no 1, 1993 p. 4: What is that has brought about this rapid grouth of interest in corpus-based NLP?The technological advances in computer power has certainly favoured the approach, as has the growing

availability of large-scale textual resources in machine readable form. More important, perhaps, is the growing frustration of trying to use standard rule-based methods to account for more than a well-chosen fragment of text, regardless of the application. The data extracted from large corpora have demonstrated that language is more flexible and complex than that which most rule-based systems have up to present tried to account for. The relative lack of practical results at a time when industrial concerns are looking to the CL community to demonstrate progress toward useful applications has also contributed to the growing interest in new methods. And finally, the success rate demonstrated in the speech community offers hope for similar progress in NLP. - Nancy Ide and Jean Veronis (editori) Computational Linguistics Special Issue on Word Disambiguation, Vol. 24, No. 1 1998 p.15: Although quantitative methods were embraced in early MT work, in the mid-1960s interest in statistical treatment of language waned among linguists due to the trend toward the discovery of formal linguistic rules sparkled by the theories of Zellig Harris (1951) and bolstered most notably by the transformational theories of Noam Chomsky (1957). Instead, attention turned toward full linguistic analysis and hence to sentences rather than texts, and toward contrived examples and artificially limited domains instead of general language. - Victor Yngve: From Grammar to Science:New Foundations for General Linguistics, John Benjamin Publishing Company, 1996: there seems to be no scientific way of deciding among the many contendersWe fiind positions and methods being promoted like a new movie or defended with withering polemics or taken up like the latest fadWe should abandon logical-domain theories entirely and move to the physical domainBecause this (notation) can be programmed on a computer it can be used to test largescale modelsGone will be the babel of arbitrary grammatical notations, each to be discarded in turn. Dei nu mprtesc n ntregime poziia extrem de radical a lui Yngve, ea este simptomatic pentru insatisfacia general fa de abordrile tradiionale ale anilor 60-80. - R.F. de Bruine (editor) Synthesis of Proposal for an RTD Programme by Users, Industry and Research in Language and Technology, DGXIII, Commission of the European Cummunities, September 1992: There is a broad need to further understanding of linguistic phenomena in the context of computerising the analysis and generation of language. General research should be stimulated within the following three main topics: - research on the linguistic meaning representation at the various level of description, ranging from the lower (e.g. phonetic, morphological and syntactic) and better understood ones to the higher, scientifically more difficult ones (e.g. semantic, pragmatic, contextual and communicative ones). It is forseen that the former must yield results in the short to medium term. Even if the latter are long-term enterprises, they must be organised in way that ensures availability of usable intermediate results. - reasearch on more adequate and efficient computational schemes for natural language processing (e.g. constraints based computing and quantitative aspects) providing the base for robust processing behaviour vz the applications of advanced computer science and statistical methods in close collaboration and synergy with related actions. - research into the human factors related with the future spread of advanced language processing technologies taking into account the ergonomics aspects, economic and sociocultural dimensions. Lista unor astfel de citate poate continua pe zeci de pagini, dar am s m opresc aici nu nainte de a mai reaminti raportul comisiei prezidate de Alain Danzin Towards a European Language Infrastructure. Acest document, o adevrat cart alb a cercetrii n domeniul tehnologiilor limbajului, a restructurat complet programele de cercetare i prioritile pe termen mediu i lung. A o ignora (ba chiar mai mult a o critica fr a-i cunote coninutul i a o eticheta ca pe un document birocratic al celor de la Uniunea European) poate fi desigur o opiune personal, dar cu efectul izolrii tiinifice i mai accentuate. Ceea ce este deocamdat numai o sugestie devine, dup cum se va vedea, o certitudine pentru DT. ntradevr, iat ce scrie mai departe DT ([1]: 133):

Curnd metodele lingvisticii matematice iau atins limitele drept care, n anul 1966, la propunerea lui David Hays, domeniul de cercetare al limbajelor naturale, din perspectiva utilizrii acestora n interactiunea cu calculatoarele electronice, este individualizat sub numele de lingvistic computaional. Chestiunea cu atingerea limitelor ine de domeniul umorului involuntar i trecem peste ea, dar nu ne mir, dupa ce am vzut la ce se reduce LM pentru DT. n ciuda repetatelor mele clarificri, i dup cum se observ i din citatul de mai sus, referirea mea era la utilizarea metodelor lingvisticii matematice n programele de prelucrare a limbajului i nicidecum la domeniul n sine. Probabil c pentru cine nu a ncercat s realizeze un sistem de prelucrare a limbajului natural i nu s-a lovit de problemele implementrii unui dicionar i a unei gramatici computaionale e mai greu de neles remarca mea anterioar. Domnul Academician Marcus nu s-a apropiat niciodat de problemele unei implementri i prin urmare nu m surprinde lipsa de nelegere a diferenei ntre o definiie formal a unei gramatici (de exemplu) care se expliciteaz n cteva rnduri i implementarea unei gramatici computaionale care nu numai c nu ncape n cteva sute sau mii de pagini dar reclam o munc exprimat convenional n mii de oameni/an. Gramatica computaional a limbii engleze, dezvoltat n cadrul proiectului Alvey, a fost rezultatul a 10 ani de munc intens a celor mai importante 12 colective de cercetare din Anglia, fiecare dintre acestea fiind conduse de cercettori importani i fiind suplimentate cu numeroi studeni doctoranzi. Gramatica GPSG dezvoltat este unul din exemplele standard de gramatic introspectiv de mari dimensiuni. Un astfel de efort uman i financiar nu este la ndemna multor societi. i experiena a artat c nici nu este necesar! Ralph Grisman, de la Universitatea din New York a demonstrat c programul sau de inducie gramatical, pe baza unui corpus de antrenare a generat o gramatic nucleu, a crei finisare a durat mai puin de dou sptmni i, confruntat cu gramatica Alvey pe un text arbitrar a reuit s analizeze mai multe fraze, cu alte cuvinte a demonstrat o mai mare acoperire lingvistic. Nu miam imaginat niciodat c ntre LM i LC ar putea avea loc o competiie, prima defininduse prin metoda (cci ce altceva este LM dect studiul limbajului cu ajutorul matematicii ?) iar a doua prin obiectivul pe care il propune. LM nu poate ignora problematica LC iar LC nui poate realiza proiectele fr LM. Probabil ns c DT lucreaz cu o definiie special a LM, pe care am dori so aflm. Nici nu exist aceast competiie dect n imaginaia domnului Academician care sugereaz mai sus c LC nu folosete matematica sau c atunci cnd o face, disciplina se numete LM. Ceea ce, aa cum am artat mai nainte, este fals. Elementele suplimentare, eseniale i definitorii sunt calculatorul, algoritmii eficieni i cunotinele cu care acesta trebuie hrnit. O formalizare a procesului de nelegere i/sau producere a limbajului natural, de orice sorginte ar fi ea, nu este dect o ipotez asupra unui fenomen nc neelucidat. Validarea acestei ipoteze este cheia care a difereniat LC de LM. n anexa acestei lucrri am furnizat dou definiii pentru LM i LC. Prima definiie (LM) aparine lui Geoffrey K. Pullum and Andras Kornai iar cea de a doua (LC) se afl n pagina WEB a Asociaiei de Lingvistic Computaional (al crui membru sunt din 1985). A mai face precizarea c lingvistica teoretic modern (n sensul precizat mai nainte) studiaz limbajul nu numai cu ajutorul matematicii. Alturi de matematic, sociologia, pshihologia, medicina i tiinele cognitive constituie domenii ale cunoaterii care sunt fundamental implicate n explicarea acestui miracol pe care l reprezint comunicarea inter-uman. Incapacitatea actual de a realiza un procesor artificial de limbaj la nivelul performanei i competenei umane se datoreaz nedescifrrii (nc) a mecanismelor minii i creierului omului. Dihotomia structural-fenomenologic i noile cercetri n direcia unei tiine integrative (reprezentat ntre alii de lucrrile de pionierat ale Academicianului Mihai Drgnescu) sunt fr ndoial pori deschise spre cunoaterea, n viitor, mai exact a minii i mplicit a facultii limbajului. Pn atunci, obiectivele LC (realizarea de sisteme automate capabile s prelucreze limbajul natural) apeleaz la modele aproximative, a cror acceptabilitate se probeaz prin implementarea i evaluarea lor pe date reale. Cum ntre afirmarea unui obiectiv de LC i realizarea sa operaional este o distan mare, pe care uneori cercettorii fr o baz n tehnologia programrii fie c o ignor, fie nu vor (i de multe ori nici nu sunt interesai) s o parcurg, confuzia ce duce la auto-acreditarea ntr-un domeniu conex este explicabil. Modul simplificator n care DT se refer la generativismul lingvistic, ntro logic binar care eludeaz faptul c n materie de modelare se lucreaz cu grade de adecvare i relevan, este ns simptomatic pentru viziunea sa limitativ n problema n discuie. Crede DT c gramaticile lui Joshi, att de importante n LC, puteau fi concepute fr s fi

fost precedate de cele ale lui Chomsky? Da, Chomsky a fost tot timpul foarte controversat, dar fr stimulentul su nu tiu ce neam fi fcut, inclusiv n LC i n LM, n ciuda faptului c el nu sa prea referit explicit nici la LC, nici la LM. Modul simplificator incriminat mai sus se refer la fraza soluii abstracte de modelare generativ de tip universal. Avnd n vedere c n articolul [1] aceasta este singura referire la generativism, bnuiesc c domnul Academician Marcus a vrut s spun succint. Apoi, continuarea ce se refer la logica binar pe care o folosesc n interpretare i simptomele viziunii mele limitative asupra problemei discutate desigur sunt efecte stilistice nereuite, ntruct nu am abordat (i nici nu m intereseaz n mod deosebit) subiectul pe care l invoc domnul Academician. Pentru c tot am ajuns aici, in s-i reamintesc domnului Academician Marcus c Noam Chomsky i-a revizuit complet punctul de vedere care a dominat aproape 15 ani lingvistica mondial. ntr-adevr Chomsky este un mare om de tiin, chiar dac foarte controversat, dar acest statut i este conferit i de onestitatea cu care s-a detaat de creaiile sale anterioare ce i-au adus notorietatea, dovedite (unele chiar de el nsui) ca fiind depite, propunnd soluii i teorii noi. Formalismul TAG al lui Joshi este ntr-adevr unul foarte important n LC ca i HPSG, LFG, CG i alte cteva. Dar dintre formalismele de lingvistic computaional, TAG este cel mai departe de influena chomskyan. Dac se poate face o asociere ntre TAG i vreo teorie generativist de tip chomskyan aceasta este doar de natur antinomic. Am colaborat cu profesorul Aravind Joshi n 1991 la Institutul Lingvistic de la Universitatea Santa Cruz din California, am fost apoi invitatul su la Universitatea din Pennsylvania, invitaie motivat printre altele i de o deosebit apreciere pe care o demonstraie alternativ a mea, mai scurt i, considerat de profesorul Joshi, mai elegant a unei teoreme a domniei sale referitoare la categoria de limbaje acoperite de LTAG. Cu acea ocazie, profesorul Joshi mi-a pus la dispoziie trei volume consistente de lucrri asupra TAG tratnd foarte amnunit motivaiile lingvistice, proprietile computaionale i caracterizarea matematic. Aceste volume i le-am pus la dispoziie i domnului Academician Marcus. Profesorul Joshi a fost in 1997 invitatul profesorului Dan Cristea i al meu la coala de Var EUROLAN unde a susinut o serie de prelegeri de nalt inut tiinific. Am evocat aceste lucruri pentru a-l lmuri pe domnul Academician Marcus c formalismul TAG i varianta sa mai nou LTAG mi sunt familiare i prin urmare m surprinde afirmaia dnsului implicnd o filiaie ntre teoriile lui Joshi i Chomsky. Faptul c gramaticile context free se afl din nou, ncepnd cu anii 80, n centrul ateniei n LC nu spune ceva ? Acest lucru este exact i ilustreaz foarte bine ceea ce spuneam nainte: contextul computaional n care complexitatea algoritmic este primul mare judector al adecvrii unui model (inerent limitat, dup cum artam mai devreme) bazat pe o anumit teorie lingvistic. n anii de vrf ai lingvisticii matematice, i n cei de nceput ai lingvisticii computaionale, pornindu-se de la o conjectur a lui Chomsky (limbajele naturale nu sunt limbaje independente de context) demontat n anii 80 de Gerald Gazdar (autorul teoriei GPSG), cercetarea a fost orientat pe identificarea de formalisme lingvistice ct mai puternice, cu puterea generativ ct mai apropiat de cea a gramaticilor universale (echivalente deci cu maina Turing). Formalismul ATN (Augmented Transition Networks) al lui William Woods de la BBN a fost timp de peste 10 ani suportul standard al majoritii sistemelor de prelucrare a limbajului natural. Eu nsumi am dezvoltat n anii 1984 i 1985 un mediu de programare lingvistic coninnd un editor de gramatici ATN i un compilator ATN. Din punct de vedere formal ATN-ul este echivalent cu o main Turing i tocmai aceast putere formal prea mare l-a scos din competiia soluiilor utile n lingvistica computaional. La sfritul anilor 80 obiectivul major al LC (valabil i astzi) a devenit identificarea unui formalism de putere generativ ct mai mic dar care s acope ct mai multe din problemele practice puse de prelucrarea automat a limbajului natural. Aa au revenit n actualitate gramaticile independente de context i s-au dezvoltat abordrile lexicalizate. Cele din urm au fost propuse tocmai pentru a rezolva, n cadrul scheletelor de gramatici independente de context, idiosincrasiile limbajului natural cel mai adesea localizate la nivelul lexical. Mai mult, dup anii 90, odat cu resurecia interesului fa de abordrile statistice, gramaticile regulate i automatele finite au cptat o utilizare foarte larg. LC are mai multe pri, mai multe orientri, mai multe niveluri de abstracie, care comport criterii diferite de evaluare. Este adevrat c actualmente n LC se regsesc orientri, abordri sau motivaii diferite. Dar indiferent de sorginte, ele se plaseaz (cel puin declarativ) n contextul computaional prin raportarea la un mediu software de prelucrare. Considernd exemplul HPSG, probabil cea mai n vog teorie lingvistic

computaional actual, atunci cnd Ivan Sag analizeaz sau argumenteaz adecvarea teoriei sale n descrierea formal a unei limbii naturale (aa cum a procedat n recentele sale conferine la Facultatea de Litere a Universitii Bucureti i n Aula Academiei Romne) el se plaseaz n sfera lingvisticii teoretice. Atunci cnd prezint soluiile de implementare a unui fragment major al limbii engleze i discut rezultatele generate de analizorul HPSG dezvoltat de grupul sau de la Universitatea Stanford i modalitile algoritmice de rezolvare a ambiguitilor (aa cum a fcut n prelegerea susinut la sediul RACAI, el se plaseaz n sfera LC. DT l asociaz pe D. Hays la ideea sa privind falimentul LM i lansarea, drept consecin, a LC. Afirmaia de mai sus conine dou lucruri false: a) nu am vorbit de falimentul LM ci de insuficiena metodelor sale la momentul invocat (cred c citatele pe care le-am prezentat i argumentele aduse pn acum sunt lmuritoare).

b) Eu nu-l pot asocia pe David Hays la o idee pe care nu am exprimat-o. n textul meu original scriam: la propunerea lui David Hays, domeniul de cercetare al limbajelor naturale, din perspectiva utilizrii acestora n interaciunea cu calculatoarele electronice, este individualizat sub numele de lingvistic computaional. Propunerea lui Hays venea n sprijinul identificrii unui nume comun pentru diversele preocupri asupra limbajului din perspectiva implementrii de sisteme automate de prelucrare. Traducerea automat, un domeniu care se dezvoltase distinct de celelalte preocupri n domeniul prelucrrii automate automate a limbajului natural, czuse n disgraie n urma raportului ALPAC (Languages and machines: computers in translation and linguistics. A report by the Automatic Language Processing Advisory Committee, Division of Behavioral Sciences, National Academy of Sciences, National Research Council. Washington, D.C.: National Academy of Sciences, National Research Council, 1966. (Publication 1416.) 124pp.). n raportul ALPAC, comandat n 1964 de Academiei Naionale de tiine, n afara criticilor deosebit de dure la adresa realizrilor i abordrilor de pn atunci n domeniul traducerii automate existau i o mulime de recomandri care se refereau la noi metode de investigaie tiinific i la abordarea unor obiective mai realiste. Istoria domeniului a reinut (pe nedrept) doar apriga critic a lui Bar-Hillel care, considerat unilateral, a dus la stoparea pentru circa 15 ani a cercetrii oficiale n domeniul traducerii automate n SUA i mai apoi n majoritatea rilor dezvoltate (o incitant prezentare a a ceea ce a nsemnat proiectul ALPAC este ALPAC: the (in)famous report, http://ourworld.compuserve.com/homepages/ WJHutchins/Alpac.htm, i i aparine lui John Hutchins). Ceva trebuia fcut pentru a conserva ctigurile tiinifice obinute pn atunci i a permite n noul context continuarea cercetrilor anterioare cu scopul declarat al realizrii de programe cu obiective realiste. O serie de mini luminate (John Pierce, David Hays, John Carroll) au vzut pericolul ca, asociate cu domeniul traducerii automate, toate celelalte preocupri privind prelucrarea automat a limbajului puteau fi periclitate, i n acest sens n raport s-a inserat un capitol distinct numit Automatic language processing and computational linguistics ce arta beneficiile aduse de cercetarea n domeniul traducerii automate n domeniile prelucrrii automate a limbajului i al lingvisticii computaionale. Printre altele n capitolul respectiv se arat c (what is required is) basic developmental research in computer methods for handling language, as tools for the linguistic scientist to use as a help to discover and state his generalizations, and to state in detail the complex kinds of theories, so that the theories can be checked in detail. (sublinierea mea, DT). Mai mult preedintele comitetului de elaborare a raportului ALPAC, John Pierce, contient de pericolul interpretrii greite sau al ignorrii recomandrilor prezente n anexele raportului (aa cum s-a i ntmplat), a inut s insereze n raportul final adresat preedintelui Academiei Naionale de tiine o seciune nou care sublinia idea de a susine lingvistica computaional n mod distinct de traducerea automat (supporting computational linguistics, as distinct from automatic language translation). Dezvoltnd ideile din capitolul raportului ALPAC referitor la prelucrarea limbajului natural (concept care i atunci i acum este diferit de cel al traducerii automate) Pierce considera c NSF (National Science Foundation) trebuia s asigure fonduri de cercetare pentru dezvoltarea de modele de limb de dimensiuni mari since small-scale experiments and work with miniature models of language have proved seriously deceptive in the past, and one can come to grips with real problems only above a certain scale of grammar size, dictionary size, and available corpus.

Acesta este contextul n care David Hays, activ cercettor la nceputul anilor 60 n domeniul traducerii automate (de altfel unul din membrii comitetului ce au elaborat raportul ALPAC) a propus individualizarea preocuprilor legate de prelucrarea limbajului natural cu ajutorul calculatorului, dezvoltarea de modele de limb realiste (nu miniaturi la ndemna cercetrii individuale) i a aplicaiilor serioase (n opoziie cu experimentele la scar mic) sub numele de lingvistic computaional. Denumirile folosite pentru preocuprile la interferenta limbajelor, informaticii i matematicii au variat tot timpul i nu cred ca acest aspect merit prea mult atenie. Lingvistic matematic? computaional? inginereasc? algebric? cognitiv? aplicat? cantitativ? teoretic? statistic? probleme matematice ale semioticii? tehnologia limbajului? limbajul n inteligena artificial? lingvistica inginereasc? procesarea limbajului natural? information storage retrieval? lingvistica cibernetic? pe fiecare dintre acestea am ntlnito i propriile mele articole au fost publicate aproape sub fiecare dintre etichetele de mai sus. Citatul de mai sus mi se pare extrem de relevant pentru discuia de fa i definete clar diferena de opinii. Dac de pild distincia dintre medicin uman i medicin veterinar sau (cobornd n taxonomie) ntre cardiologie i stomatologie nu merit prea mult atenie atunci domnul Academician are dreptate. Din punctul meu de vedere ns, este o mare diferen ntre unele denominri ale studiului limbii amintite mai sus (la care se mai poate aduga o list la fel de numeroas), ele definind cteva domenii distincte definite prin propriile obiective, competene, metode i modele. n 1962 sa nfiinat n USA Association of Computational Linguistics. De fapt n 1962 s-a infiinat AMTCL, acronim pentru Association for Machine Translation and Computational Linguistics, primul preedinte al AMTCL fiind Victor Ingve (cel pe care l-am citat mai devreme), iar al doilea fiind David Hays. ACL (Association of Computational Linguistics) a aprut abia n 1968. n 1963 Ferenc Kiefer a demarat la Budapesta revista Computational Linguistics, care a trit peste zece ani. Este adevrat, dar coninutul ei era foarte diferit de al revistei Mechanical Translation and Computational Linguistics' aprut n 1965 ca revist oficial a AMTCL. i tot ca un rezultat al diferenierilor tot mai mari care apruser n domeniu, AMTCL i nceteaz activitatea la nceputul anilor '70 fiind nlocuit de American Journal of Computational Linguistics care n 1984 devine Computational Linguistics (actuala denumire). Conferina de la Grenoble de traitement automatique des langues din 1967 era a treia de acest fel, fiind precedat de o alta, la New York, n 1965 i de una in Anglia, probabil n 1963, organizat de M. Masterman. ntre timp, la rui, numeroase conferine au avut loc pe tema avtomaticeskaja obrabotka tekstov iar Sprachkunde und Informationsverarbeitung a fost uneori eticheta folosit de germani s.a.m.d. Nu negm rolul important pe care la avut David G. Hays n dezvoltarea CL, dar acest rol a fost altul dect cel afirmat de DT. Nu am s reiau explicaia faptului c nu i-am atribuit lui Hays nici un rol demolator, dar trebuie s subliniez faptul c iniiativa lui David Hays, de care am discutat mai devreme, a avut un rol fundamental n evoluia CL. Aa cum am artat mai sus, iniiativa disocierii de traducerea automat, pentru a nu periclita restul preocuprilor privind prelucrarea automat a limbajului a fost o necesitate conjunctural. In 1965, cnd la New York a avut loc prima conferin COLING, Hays anticipa desigur efectul de bumerang al raportului la elaborarea cruia participa, i a propus chiar atunci, detaarea oficial prin sintagma computational linguistics de domeniul traducerii automate (pe care l prsise de altfel i Hays cel ce fusese unul dintre principalii specialiti n traducere automat ai RAND Corporation). Deci nu Hays a creat domeniul lingvisticii computaionale, el este cel ce a oficiat botezul. i nu a fcut-o de pe orice poziie ci de pe cea de fost membru al Comisiei Alpac i de preedinte al AMTCL. Emergena LC sa produs nc din anii 50, sintagma LC a devenit curent nc de la nceputul anilor 60. irul de conferinte COLING nu a fcut dect s continue aceasta tradiie. Alii au preferat folosirea sintagmei LM (a se vedea, de exemplu, Prague

Bulletin of Mathematical Linguistics, Prague Studies of Mathematical Linguistics, revista japoneza Mathematical Linguistics (in echivalentul ei japonez) etc. n ceea ce privete ns profilul acestor reviste, nu am constatat o diferen fa de cele de CL. Desigur, ntre timp au nceput s apar i unele publicaii mai specializate, cu referire la prti determinate ale CL (cum ar fi cea relativ la corpusul lingvistic). Etichetele nu au avut importanta si nu stiu sa se fi desfasurat vreo competitie intre ele. Chiar Hays a folosit diverse etichete, de exemplu cea din [3]. Persistena cu care domnul Academician pune semnul egalitii ntre domeniul lingvisticii matematice, n care fr discuie nu a avut sau nu are rival n Romnia, i cel al lingvisticii computaionale sau tehnologia limbajului este aparent foarte curioas. Nu i dac observm urmtoarele fapte: sintagma lingvistic matematic este din ce n ce mai puin utilizat (o cutare pe internet a termenilor mathematical linguistics, computational linguistics, natural language processingi language technology este foarte instructiv: numrul de documente ce i refer este 4.630, 87.900, 169.000 si respectiv 2.840.000); n domeniul strict computaional, la care se referea [1], n Romnia activeaz de ctva timp o serie de cercettori importani (majoritatea dintre ei membrii ai Comisiei de Informatizare pentru Limba Romn pe care am onoarea s o conduc, i din care de altfel face parte i domnul Academician Marcus); domnul Academician Marcus fie nu cunoate, fie dezavueaz rezultatele romneti obinute n domeniul prelucrrii cu calculatorul a limbii romne (cel puin aa poate fi considerat ignorarea complet a acestora n lucrrile domniei sale); ori poate consider c nu reprezint domeniul su de interes.

Dar DT merge mai departe pe ideea sa i afirm (n complet discordan cu viziunea lui Hays, de la care se reclam) c metodele LM iau atins limitele (nc n urm cu peste 30 de ani!), pentru ca numai dou pagini dup aceast afirmaie (deci la pagina 135 din [1]) s afirme c e nevoie de modele formale ale limbii la toate nivelurile ei (fonetic, morfologie, sintax, discurs) gramatici formale [ ... ]. Cum vede DT aceste modele formale altfel dect sub forma logicomatematic? Asupra primei pri a acestei fraze cred c am discutat suficient. Referitor la contradicia pe care o semnaleaz n partea a doua a frazei de mai sus, nu pot s-i recomand domnului Marcus dect s citeasc nc de cteva ori articolul respectiv (sau s-l citeasc integral). Este vorba de NOI modele formale de limb (n opoziie cu cele vechi), resurse lingvistice computaionale adecvate momentului actual. Dintre noile teorii care au aprut i s-au i impus a putea s amintesc teoria optimalitii n comunicare dezvoltat de Prince and Smolensky n 1993 (cu implementri n domeniul fonologiei i morfologiei computaionale i cu promitoare rezultate chiar n sintax), teoriile sintactice bazate pe unificare i satisfacerea de restricii, precum i o ntreag pleiad de teorii ale discursului. n domeniul prelucrrii automate a limbajului natural exist standarde, exist tehnologii specifice, exist organizaii mondiale specializate, mai toate aprute n ultimii 10-15 ani. Dac domnul Academician Marcus poate afirma c pentru limba romn n domeniul resurselor lingvistice computaionale s-a fcut (sau a fcut) ceva nainte de anii 90 nseamn c domnia sa are o imagine complet diferit de a tuturor specialitilor din lume. tie oare c multe modele de acest fel exist de cteva decenii? Indicaii bibliografice asupra lor sunt date parial in [4], [5], [6], [7] iar pentru cercetrile romnesti in [8], [9]. Desigur, aceste modele sunt inegale ca valoare, au nevoie de continuri, modificri, ameliorri, dar ele nu pot fi ignorate. Fonetica, fonologia, vocabularul, morfologia, sintaxa, semantica lingvistica i lingvistica istoric au beneficiat din plin de metodele matematice, aa cum se poate vedea din impactul deosebit al lucrrilor respective n literatura de specialitate; Recursul la modelele anilor '60-70 descrise n lucrrile menionate ca argument pentru concepte ce au aprut la nceputul anilor '90 m scutete de comentarii. Pe de alt parte, avansul tiinific n orice domeniu se cldete pe cunoaterea anterioar iar cazurile de frngere cognitiv, cnd salturile tiinifice neag cunoaterea anterioar sunt rare i ele de regul definesc revoluiile n tiin. Filiaia sau influenele n dezvoltarea unui domeniu tiinific (atunci cnd ele pot fi depistate cu obiectivitate) constituie preocuparea istoricilor tiinei. Lucrrile tehnice, de regul se raporteaz la contemporaneitate, ceea ce n

termeni temporali poate nsemna, n funcie de dinamica domeniului, civa ani, un deceniu, mai multe decenii sau perioade chiar mai mari. De pild, puine lucrri tehnice n domeniul lingvisticii teoretice, al fonologiei se refer la marele gnditor Panini, considerat de muli oameni de tiin creatorul tiinei limbii. Lucrarea sa fundamental Astaka, cunoscut i sub numele de gramatica lui Panini conine descrieri formale ale regulilor de producie ale limbii sanscrite i o clasificare cu peste 1700 de elemente constitutive ale limbajului. Aceste elemente sunt organizate n clase a cror agregare este descris prin intermediul unor reguli ordonate, ntr-o manier apropiat de teoriile actuale. El poate fi considerat un precursor al teoriei limbajelor formale i al lingvisticii matematice, dar puine cri sau lucrri de referin n aceste domenii menioneaz numele genialului savant ce a trit cu mai bine de peste 2500 de ani n urm. n schimb, numele su se regsete n orice lucrare serioas de istorie a lingvisticii formale. Obstinaia cu care domnul Academician Marcus ncearc s sugereze c eu a dezavua metodele matematice, sau rezultatele importante ale lingvisticii romneti dovedete c domnia sa complet neinformat n ceea ce m privete. DT indic, drept domeniu al LM, numai aspectul sintactic, gramatical, despre celelalte nu a aflat. Nu a aflat nici ca LM a abordat i aspecte analitice, nu numai pe cele generative. Fals: numai este imaginaia domnului Academician. Citatul corect este: n general al aspectului lor sintactic, gramatical. DT definete dimensiunea fundamental a LC prin fezabilitatea instanierii unei descrieri lingvistice ct mai complete, mentenabilitatea acestei instanieri i, desigur, conformana cu realitatea uzului limbii. ([1]: 133). Cu un mic efort intelegem despre ce este vorba. Desigur c problemele de complexitate, de cost, nu puteau fi nc abordate n anii ``50 i ``60 cu mijloacele cu care ele au nceput a fi studiate n a doua jumatate a anilor ``70, cnd instrumentele elaborate n informatica matematic deveniser mult mai perfecionate. Dar acest fapt nu tine, cum crede DT, de alegerea ntre LM i LC, ci de progresul general realizat n tiin. Pentru a m referi la propria noastr experien, atunci cnd, in 1969, prezentam la COLINGul din Suedia gramaticile contextuale nu aveam cum sa m ocup de aspectul complexittii acestor gramatici n maniera in care s a putut face acest lucru ulterior (a se vedea, de exemplu, [10]). Dar acest fapt nu are nici o legatur cu eticheta folosit. Efortul (chiar mic) este probabil generat de unii termeni de specialitate nefamiliari domnului Academician. Voi furniza lmuririle necesare mai jos. Eu m refer la perioada actual cnd invoc ca dimensiune fundamental fezabilitatea instanierii unei descrieri lingvistice ct mai complete. Instanierea unei descrieri lingvistice nseamn altceva dect complexitatea formal, de care de altfel i amintesc n seciunea trunchiat a citatului folosit de domnul Academician Marcus mai sus. Este un termen tehnic care se refer la construcia propriu-zis, n baza unui formalism sau teorii lingvistice, a unei gramatici i a dicionarului aferent, care furnizate ca resurse unui program de prelucrare a limbajului natural, permit acestuia s analizeze sau s genereze un text arbitrar. O astfel de instaniere este fezabil dac ea se poate realiza n condiii de timp i resurse umane rezonabile. Nu mam mirat atunci cnd Encyclopedia of Microcomputers i Encyclopedia of Computer Science and Technology miau solicitat o contribuie cu tema Semiotics and Formal Artificial Languages (a se vedea [11]) si nici cnd Handbook of Formal Languages mia solicitat un capitol privind Contextual Grammars and Natural Languages[12] iar o lucrare preponderent teoretic a fost inserat n Computational Linguistics in the Netherlands 2000[13]. Nu vd rostul acestor lmuriri. Toat lumea l tie, l recunoate i nimeni dintre cercettorii adevrai nu-l contest pe omul de tiin Marcus, important reprezentant romn al lingvisticii matematice, creatorul acestei coli n Romnia. n articolul [1] nu m-am referit nici direct nici indirect la domnia sa. Faptul c am evocat criticile pe care le-am comentat anterior la adresa metodelor lingvisticii matematice ale nceputului deceniului apte nu are nici o legtur cu realizrile (nc o dat, excepionale) ale domnului profesor. ns probabil c identificndu-se cu LM mondial, domnia sa a considerat critica asupra metodelor LM din anii '60 un atac la persoana sa, adevrat act de blasfemie.

n anii din urm, domnul Academician ncearc s transfere n contextul noilor tendine i tehnologii ale limbajului, ignornd o realitate existent, tot portofoliul de rezultate pe care le-a obinut anterior creditndu-le ca surse primare a tot ceea ce se ntmpl azi n tehnologia limbajului n Romnia (i nu numai). i cine nu este de acord cu acest lucru (parafrazndu-l pe domnul Marcus) trebuie demonizat. Textul pe care l comentez ca i aciunile recente declanate de domnul Academician Marcus, pretinse a fi iscate de coninutul articolului [1], nu fac dect s-mi ntreasc aceast impresie. Eu nu am nimic de mprit cu domnul Academician. Nu mam mirat nici cnd am vzut c o revist cu titlul Linguistics and Philosophy public articole excelente de LC. Interferenele merg n toate direciile i ele caracterizeaz cultura contemporan. n acest orizont trebuie s ne plasm, cred, atunci cand ne referim la disciplinele cognitive care se dezvolt sub ochii nostri i ii pun amprenta pe modul nostru de gndire i de comportare. Un tratat ca Mathematical Methods in Linguistics [14] include multe fapte de LC, dei n titlul sau nu figureaz epitetul computational. O revist ca Theoretical Linguistics (1970 2000), publicata de Walter de Gruyter (BerlinNew York) a inclus multe articole viznd aspecte matematice i/sau computaionale, dei numele revistei nu indic acest lucru. Chiar o revista mai traditional, ca Linguistics a inclus de multe ori articole de LM i nici Foundations of Language nu a procedat altfel. Multe fapte de LM si de LC se plaseaz n mod natural n orizontul semioticii computaionale. Faptul c tratatul amintit nu incorporeaz n titlu atributul computational nu m surprinde, pentru c ar fi creat o confuzie pe care autorii au evitat-o deliberat. Cartea respectiv nu este o carte de lingvistic computaional, coninutul ei trateaz exact ce anun n titlu: metode matematice folosite n studiul lingvistic. Lingvistica teoretic, puternic formalizat n ultimele decenii apeleaz inevitabil (ca de altfel marea majoritate a domeniilor tiinifice) la metode i modele matematice. Era internetului impune desigur o problematic nou, fa de care abordrile anterioare se pot dovedi insuficiente. Exact aceasta este esena celor 3 paragrafe din [1] incriminate i combtute pe larg de domnul Academician Marcus: insuficena abordrilor anterioare. Contientizarea acestei insuficiene ns a precedat cu ctiva ani apariia internetului. Salutm iniiativa noii generaii de cercettori de a se dedica noilor probleme. Nu putem ignora tonul paternalist privind noua generaie de cercettori care se dedic problemelor ridicate de internet n prelucrarea automat a limbajului natural. INTERNET-ul este o revoluie! i implicaiile sale sunt att de mari nct asigurarea accesului universal la Internet a devenit o problem fundamental chiar i pentru o organizaie de caliblul UNESCO. Am avut onoarea s fac parte din Comisia de Experi creat de Secretarul General al UNESCO (comisie de cel mai nalt nivel) pentru elaborarea documentului Recommendation on Multilingualism and Universal Access to Cyberspace. Sunt al doilea expert romn (dup dl. Ambasador Dan Hulic, Membru Corespondent al Academiei) care a fcut parte dintr-o comisie de experi UNESCO de acest nivel. Ignorarea n cercetarea privind prelucrarea automat a limbajului natural a fenomenului INTERNET este de neconceput. Societatea cunoaterii are ca una din premisele sale fundamentale accesul universal, nengrdit de bariere lingvistice la cunoterea stocat n internet. Alte comentarii sunt de prisos. Dar trecerea de la ieri la azi i de la azi la mine nu poate fi dect una care ine seama n mod critic de experiena acumulat. Nimeni nu neag acest lucru, i faptul c l-am rugat insistent pe domnul Academician s fac parte din Comisia de Informatizare pentru Limba Romn cred c arat buna mea credin i sperana pe care o nutream (i care mai supravieuiete nc) c experiena domniei sale va fi pus n slujba obiectivelor pe care nici eu nici domnul Marcus nu le putem atinge singuri. n acelai spirit, i-am propus domnului Academician Marcus s scriem mpreun o antologie a cercetrilor romneti n domeniul lingvisticii formale i computaionale, de la inceputurile pe care le evoc domnia sa i pn n zilele noastre. Din pcate propunerea a rmas fr rspuns. Din tot ceea ce am prezentat mai sus rezulta clar ca LM si LC au fost mereu mpreun i c, n general, etichetele nu au contat prea mult. Unii au mers chiar mai departe; astfel, n capitolul 4, Mathematical and Computational Linguistics, din [15], se afirma pur i

simplu (p.86): Mathematical linguistics has also been called theoretical linguistics and even computational linguistics. Iar mai departe, n acelai loc: Computational Linguistics originated around 1950 with the initiation of research on automatic translation (se trimite la o carte editat de D.G.Hays [3] i la o alta avndul ca autor pe acesta [16]). Nu vd n pasajul pe care l-am citat mai sus nici un argument mpotriva a ceea ce am susinut n [1] i n cele prezentate aici. Notez n treact adverbul even cu o valoare discursiv n complet consonan cu considerentele istorice pe care le-am invocat ale evoluiei tiinifice i tehnologice n domeniul prelucrrii limbajului natural. n Romnia, mini luminate ale anilor 60, ca profesorii Al. Rosetti, Grigore Moisil i Tudor Vianu, au neles schimbrile care se profilau i au sprijinit proiectul nfiinrii unei seciuni de lingvistica aplicat la Facultatea de Limba i Literatura Romn a Universitii din Bucureti, dar sau gsit alii care si torpileze. Aa este, i m bucur elogiul adus acestor corifei ai tiintei romneti. Poate i pentru c alturi de civa reprezentani importani ai lingvisticii romneti actuale care au neles tendinele i imperativele momentului (Prof. Dan Mazilu-decanul Facultii de Litere, Prof. Alexandra Cornilescu, Conf. Emil Ionescu) am participat la reluarea acestei lucrri. Programul de Masterat n Lingvistic Formal i Computaional de la Facultatea de Litere a Universitii din Bucureti, funcioneaz de mai bine de 2 ani i nutresc sperana c Ministerul Educaiei i Cercetrii va aproba demersurile noastre privind chiar nfiinarea unui departament cu acest profil. n acelai sens, am participat alturi de profesorul Cristea (avnd fr discuie i sprijinul altor mini luminate ale Universitii A.I.Cuza din Iai) la lansarea n 2001 a Masterat-ului n Lingvistic Computaional al Facultii de Informatic. Nu este uor s pendulezi ntre Iai i Bucureti, dar i domnul profesor Cristea, i doamna profesor Cornilescu i eu o facem pentru ca cele dou programe surori de master s-i mplineasc menirea de a pregti ci mai muli specialiti n folosul programelor de informatizare pentru limba romn. La Academia Romn a funcionat muli ani Comisia de Lingvistic Matematic iar revista Cahiers de Linguistique Theorique et Appliquee, infiinat n 1962, a fost mult vreme expresia colaborrii lingvisticii cu matematica i cu informatica. In ciuda forelor adverse, sa reuit n acei ani atragerea unor studenti strlucii ai unor faculti umaniste la cercetarea limbii i literaturii cu mijloacele LM i LC. Comisia de Informatizare pentru Limba Romn de la Academia Romn, nfiinat n anul 2001, ncearc, innd cont de realitile i prioritile actuale, s armonizeze eforturile celor ce lucreaz n domeniul limbii romne i care cred n perspectiva nrolrii ei n cadrul limbilor importante ale societii cunoterii. Eu am convingerea c voi putea spune peste timp acelai lucru: In ciuda forelor adverse, sa reuit n acei ani atragerea unor studeni strlucii ai unor faculti umaniste la cercetarea limbii i literaturii cu mijloacele tehnologiei limbajului. Pentru a da numai dou exemple de actuali profesori universitari care au susinut teze de doctorat de acest tip, voi mentiona pe Pia Brinzeu, de la Catedra de Englez a Universitii din Timioara i pe Mihai Dinu, de la Facultatea de Litere a Universitii din Bucuresti. Tot n acea perioada i-a sustinut teza de doctorat Sorin Cristian Ni, pe o tema de critic textual automat privind nlnuirea (filiaia) diferitelor variante ale Istoriei Trii Romneti (erban Cantacuzino). Exemple de profesori i cercettori romni valoroi, cu contribuii substaniale n domeniul limbii romne se pot da foarte multe. Muli dintre ei sunt n strintate i fac o bun propagand tiinei romneti. Mi-e cunoscut cartea cu adevrat remarcabil a domnului profesor Mihai Dinu Personalitatea limbii romne, de altfel premiat de Academia Romn. Aceast lucrare este o solid cercetare de lingvistic computaional n spiritul actual tocmai pentru c a parcurs acea cale dificil a instanierii lingvistice (n cazul su la nivelul componentului lexical). Iat ns c, n pofida realitilor puse in eviden mai sus, in ([1]: 134) se scrie: n Romania, cercetrile n domeniul LC i al prelucrarii limbajului natural, precum i primele rezultate practice au aparut la nceputul anilor 80 [3, 4, 5, 6]. La ce trimit numerele indicate in paranteze ? La o bibliografie de 24 de titluri n care

aproape toate (dar toate cele indicate intre paranteze) ncep cu DT (ignoranduse regula general n lumea tiinific, a aezrii numelor autorilor aceluiai articol n ordine alfabetic; dar nu acest fapt este cel care ne intereseaz n momentul de fa). Inainte de a comenta acest pasaj i pe cel urmtor, nu pot s trec peste observaia absurd i fals pus ntre parantezele ce trdeaz totui o ezitare a probitii omului de tiin n faa unei ruti gratuite. Nu exist nici o regul general de genul celei afirmate. Ordonarea alfabetic este o convenie ntre autorii cu contribuii egale n redactarea unei lucrri. Am deschis la ntmplare dou volume de specialitate, coninnd contribuii (S. Amstrong et al. (eds) Natural Language Processing Using Very Large Corpora, Kluwer, 1999 i T. Strzalkovski (ed) Natural Language Information Retrieval, Kluwer, 1999). Din cele 19 lucrri cu mai mai muli autori, doar trei urmresc (probabil din ntmplare) regula general n lumea tiinific pe care o invoc domnul Academician i pe care probabil a impus-o i o impune tuturor celor alturi de care public, indiferent de contribuia fiecruia. S observm c nc n 1978, n articolul Mathematical and Computational Linguistics [9] de prezentare a activitii din Romnia n domeniul LM i LC se face referire la peste 400 de articole publicate de 130 de autori romni i sunt mentionai peste 300 de autori strini (unii dintre ei, nume de vaz ale LM i LC din acea perioada) care au citat i continuat cercetrile romnesti. S mai adugm c numeroi lingvisti romni dintre cei mai importani au citat i folosit rezultatele colii romnesti de LM i LC. Iat ca vine acum DT i face (deliberat sau nu) din tot acest efort un teren viran carel astepta pe DT s trag primele jaloane. Nu e cam mult? Dei am repetat de nenumrate ori pn n acest moment, o mai fac o dat, preciznd c discuia din [1] se referea la resurse lingvistice computaionale i programe software de dialog n limbaj natural (n limba romn). Acestea erau rezultatele practice pe care le menionam n citatul comentat cu gratuit aciditate. Poate s-mi menioneze domnul Academician vreun sistem de dialog n limba romn implementat naintea sistemelor pe care le-am realizat eu i colaboratorii mei? Iat cteva repere: Sistemul QA (1980) un sistem inferenial de ntrebare rspuns n limba romn, susinut de un demonstrator original de teoreme n calculul predicatelor de ordin 1; SDLR (1981) un sistem de dialog n limba romn ce a extins capabilitile lui QA cu operatorii lingvistici ai logicii fuzzy; IURES (1983) sistem de generare automat a sistemelor de ntrebare rspuns, independent de limb, pe care l-am realizat mpreun cu Dan Cristea, acum decanul facultii de informatic a Universitii Cuza. Sistemul IURES a fost omologat internaional n 1988 i a constituit primul produs de inteligen artificial exportat (n acelai an). Sistemele IURES i SDLR sunt referite printre altele n enciclopedia de lingvistic computaional. Mai important este faptul c sistemele IURES i SDLR sunt amplu descrise n prestigioasa antologie The Survey of the Current Status Research and Future Trends in Machine Translation and Natural Language Processing realizat in 1992 de JEIDA (Japan Electronic Industry Development Association), fiind de altfel singurele sisteme de dialog n limbaj natural din ntreaga zon fost comunist incluse n aceast carte.

Acestea erau referinele incriminate de domnul Academician i dac domnia sa poate s-mi indice un singur sistem de prelucrare a limbajului natural realizat n Romnia naintea celor pe care le-am citat, eu am greit. Dar m ndoiesc. Nu cunosc coninutul articolului menionat (pe care i l-am solicitat de altfel domnului Academician, fr a-l primi ns), astfel nct nu pot afirma nimic despre cei 130 de autori romni ce au realizat (conform afirmaiei domnului Marcus) lucrri de lingvistic computaional. Ce pot ns s afirm este c am citit multe din lucrrile de lingvistic teoretic contemporan ale marilor notri lingviti i ele au fost extrem de relevante ca material faptic n cercetrile mele. Dar lucrrile pe care le-am citit (i citat) eu, nu erau din domeniul lingvisticii computaionale. Lucrrile domnului Marcus (n special cele din domeniul limbajelor formale) apreau destul de frecvent ntre referinele bibliografice ale lucrrilor mele de la nceputul anilor '80. Eram la nceput de drum, sursele documentare erau puine i demersul era natural. Pe atunci, Chomsky era din nou foarte n vog, noua sa teorie Government and Binding impulsionnd o serie de cercetri n domeniul formalizrii gramaticii universale. Tentaia computaional fa de aceast teorie a fost enorm, i chiar dac actualmente nu exist nici o gramatic computaional

efectiv a GB, idei fundamentale din GB se regsesc n formalisme lingvistice computaionale moderne (cum ar fi HPSG). S fim bine nelei. Nu noi avem nevoie de nc o citare pe lng miile de citri deja acumulate, ci noile generaii de studeni i de cercettori au dreptul la o informare corect asupra dezvoltrii LM i LC in general i, n particular, asupra LM i LC n Romnia. DT a mai publicat, in urma cu civa ani, un articol n care se schia o privire istoric asupra LC n Romnia, cu cteva citri la ntmplare, care tradau necunoaterea situatiei reale. Cu rezerve fa de prima parte a paragrafului, m opresc la grija domnului Academician pentru dreptul noilor generaii de studeni i de cercettori asupra informrii corecte asupra istoriei LM i LC. Personal, cred c mult mai important pentre ei este s tie prezentul i tendinele viitoare ale domeniului. Astfel de cunotine le pot asigura un loc de munc, o direcie de specializare, o carier viitoare. Noile generaii de studeni i de cercettori sunt utilizatori pasionai ai Internetului. Acest uria ocean informaional le asigur un imens volum de cunotine, ncepnd cu cursuri on-line (obligatorii pentru profesori la mai toate universitile importante ale lumii), valome ale conferinelor sau articole extrem de utile, recente i mai puin recente, cri electronice. Chiar i relevante lucrri de istorie asupra diverselor domenii tiinifice. Sistemele moderne de regsire documentar le asigur i o ierarhizare a acestor surse de informare n raport cu relevana i cu interesul manifestat de ali cititori. Listele de discuii sau arhivele de ntrebri frecvente (FAQ) le pot oferi rspunsuri avizate i obiective la ntrebrile ce-i preocup. In anex este furnizat un exemplu. n ultima parte a citatului de mai sus, domnul Academician Marcus aduce n discuie o lucrare a mea din 1996 i care arat c frustrrile domniei sale sunt mai vechi. Articolul de care amintete domnul Academician mai sus, are titlul Resurse lingvistice computaionale: trecut, prezent i viitor i a aprut n volumul Limbaj i Tehnologie, Ed. Academiei, 1996. Cei interesai, pot gsi articolul respectiv n pagina oficial a RACAI (http://www.racai.ro seciunea publicaii). Iar cele cteva citri la ntmplare, care trdau necunoaterea situaiei reale apar n capitolul 2. Cercetri i realizri romneti n domeniul prelucrrii automate a limbajului natural. Cred c titlul volumului, al articolului i al capitolui sunt lmuritoare pentru ceea ce discutam acolo, dar probabil fraza, care trimitea la un volum editat de domnul Marcus, abordrile statistice, revenite acum n actualitate, au avut o tradiie strlucit (n Romnia, adugarea mea DT) a fost prea scurt i insuficient de laudativ. Mai este un aspect care cere o precizare. n conformitate cu specificul volumului n care apare articolul [1], DT face numeroase referiri la acte i documente ale unor organisme europene i internationale, cum este i firesc, pentru a nu mai vorbi de aspectul financiar al colaborarii cu organismele respective. Aceasta situaie a existat de la nceputul LM i LC (chiar daca nu a avut amploarea de azi), datorit faptului c LM i LC au aprut i ca urmare a unor comandamente sociale, privind precaritatea mijloacelor de prelucrare a informaiei. Imi amintesc de faimoasele Rapoarte CETIS care veneau de la EURATOM, Bruxelles, pe teme legate de analiza i prelucrarea automat a limbajului, traducere automat i documentare automat. n USA, diferite corporaii (cum ar fi RAND Corporation, Santa Monica, Calif.) finanau cercetri similare. O intlnire semnificativ a fost aceea din 1962, organizat de NATO Advanced Summer Institute, la Veneia, Italia, privind traducerea automat. De numele acestui Institut este legat un document care a marcat evoluia cercetrilor de traducere automat: seria de expuneri prezentate de Y. BarHillel [17]. n legtur cu aceste activitti dirijate i finanate de diferite organisme europene i internaionale, trebuie s observm c cei implicati au avut nelepciunea i priceperea necesare pentru a nu reduce proiectele respective la dimensiunea lor exclusiv utilitar, ci de a o subordona pe aceasta unei perspective mai ample, care lua n considerare orizontul tiinific real al problemelor. Pentru a da un prim exemplu, m voi referi la faptul c mai multe rapoarte CETIS au pus n discuie un concept care, nscut din experimentele de traducere automat, avea s se dovedeasc de o deosebit semnificatie pentru teoria sintactic n toat generalitatea sa; este vorba de conceptul de proiectivitate sintactic, cu consecine bogate n studiul structurilor arborescente i al gramaticilor de dependen. Azi putem spune c si sintaxa limbajului natural i teoria matematic a grafurilor au profitat esenial de conceptul

respectiv (folosit pn i de Rene Thom, n probleme de morfogenez [17]). Aceast expansiune a unui concept sau rezultat dincolo de motivaia sa initial este testul cel mai convingator al interesului su. Un al doilea exemplu se refer la titlul provocator folosit de BarHillel pentru expunerile sale: Patru conferine despre lingvistica algebric i traducerea automat. Simpla alturare a celor dou sintagme, una foarte teoretia, cealalt aparent tehnologic, avea menirea si avertizeze pe cei care presau s se obin ct mai repede rezultate practice asupra faptului c proiectele de traducere automat nu se pot finaliza de azi pe maine, ci au nevoie de un lung itinerar lingvistic, matematic si computaional. Acum tim c acest itinerar continu i azi, cu tatonri i reveniri, i, chiar dac nu a dus nc la rezultatele visate, a impulsionat n mod esenial cercetrile de AI, cu consecine benefice pentru aspectele logice i semantice ale limbajului natural. ntrebarea pe care neo punem, dar o lsm deocamdat fr rspuns, deoarece nu suntem pregtii pentru a-l da, este urmatoarea: Nu cumva aspectele pe care leam criticat mai sus sunt consecina unui fenomen mai general, acela al unui orizont insuficient de cuprinztor, al unei prea mari dependene de factori utilitari imediai? tiina a oscilat mereu ntre cognitiv i utilitar, dar istoria arat c functia utilitar sa manifestat n toat profunzimea ei atunci cnd ea a fost fructul unei evoluii fireti a funciei cognitive, evoluie care poate fi de doi ani, de 20 de ani, de 200 sau de 2000 de ani. Cu un ochi ndreptat spre comisiile europene, suntem obligati totui s inem treaz i cellalt ochi, ndreptat spre ceea ce se ntampl pe scena cercetrii tiinifice vii, aa cum apare ea n revistele de specialitate i la ntlnirile tiinifice de profil. Remarcile de mai sus mi sugereaz celebra fabul cu strugurii cei acri. Cercetarea instituionalizat (n opoziie cu cea de dragul artei) are motivaii ntotdeauna justificabile. Organismele de finanare a cercetrii, naionale sau internaionale, nu fac desigur acte de caritate. Obinerea unei finanri pentru un proiect de cercetare nu este la ndemna oricui i el implic nu numai abordarea unei probleme importante, dar i credibilitatea grupului de cercetare. Evaluarea propunerilor de proiecte se face de ctre experi recunoscui n domeniul respectiv, angajai i pltii de ageniile de finanare a cercetrii. n condiiile unei concurene internaionale acerbe pentru fondurile (din pcate prea mici) destinate cercetrii, a lua n derdere, invocnd caracterul utilitar, cercetrile ce obin concurenial finanarea arat o desprindere de realitate. n luna martie a.c. am participat la evaluarea propunerilor de proiecte europene din cadrul Programului Cadru 5 (apelul 8), i n calitate de raportor al direciei II.1.1 - Exploratory High Risk/Long Term Research, pot s afirm c propunerile de proiecte pe care le-am vzut erau foarte departe de a avea caracter utilitar. Domnul Academician Marcus las fr rspuns o ntrebare cu rspuns sugerat, ridicnd o problem discutat cu ceva timp n urm, anume a tipului de cunoatere contemporan: enciclopedic (i inerent generalist) sau specializat. Cel puin n domeniile tehnologice, viteza fr precedent a apariiei de cunotine noi face imposibil cunoaterea enciclopedic i n acelai timp expert pe toat lrgimea spectrului cunoaterii actuale chiar i ntr-un domeniu aparent ngust. Tehnologia limbajului este actualmente termenul ce subsum toate preocuprile legate de prelucrarea automat a limbajului natural. Cred c acest lucru spune totul!

3. In loc de concluzii
Ajungnd n acest punct al rspunsului meu la atacul domnului Academician Marcus mrturisesc c m ncearc un apstor sentiment al deertciunii. Nu am dorit aceast polemic i n nici un caz n acest context. Considernd c ea este nepotrivit fa de obiectivele urmrite de proiectul SI-SC: Soluii i strategii n Romnia, n calitatea mea de director de proiect i coeditor al volumului de fa, am discutat cu membrii comitetului director al proiectului oportunitatea publicrii polemicii domnului Academician Marcus (i implicit a rspunsului meu) n volumul destinat unor probleme tehnice. Prerea a fost unanim c nu este cazul s amestecm obiectivele proiectului cu discuia de fa. Dar transmind domnului Academician aceast opinie i fcndu-i propunerea de a gzdui aceast polemic pe internet (n pagina oficial a RACAI) domnia sa s-a simit cenzurat, insultat i ndreptit s fac o serie de afirmaii pe care m abin s le comentez. Decizia de includere a acestei seciuni n volumul de fa am luat-o fr plcere pentru c pe de o parte, n ciuda prerii domnului Academician Marcus (Articolul meu se ncadreaz

perfect n obiectivul pe care pretindei c-l urmrii i n acest spirit a fost conceput. Realizai gravitatea deciziei Dv? - de a nu-l include n volum, precizarea mea, D.T.) continui s cred c nici articolul domniei sale nici al meu nu i aveau rostul aici. Pe de alt parte, nu pot dect s deplng suprarea pe care i-am provocat-o fr voie domnului Marcus i risipa de energie pe care o depune ntr-o problem care din punctul meu de vedere nu exist. Drept care spernd c includerea articolului ce se incadreaza perfect in obiectivuli va da domnului Academician satisfacia pe care i-a dorit-o, las cititorii s aprecieze ct de grav ar fi fost pentru obiectivul tehnologiei limbii romne n contextul Societatea Informational Societatea Cunoaterii: Soluii i strategii n Romnia ca cele dou articole s nu fi aprut aici.

Referinte bibliografice (seciune din lucrarea domnului Academician Marcus):


[1] D. Tufis. Promovarea limbii romane in SISC. In Societatea Informationala Societatea cunoaterii (coord. F. Gh. Filip). Ed. Expert, Bucuresti, 2001, 131142. [2] D. G. Hays. The field and scope of computational linguistics. Papers in Computational Linguistics (eds. F. Papp, G. Szepe). Proceedings of the Third International Meeting of Computational Linguistics, held in Debrecen, Hungary, 1971. Akademiai Kiado, Budapest, 1976, 2126. [3] D. G. Hays (ed.). Readings in Automatic Language Processing, American Elsevier, New York, 1967. [4] S. Marcus. Mathematical Linguistics in Europe. Current Trends in Linguistics (Th. A. Sebeok, ed.), vol.9, Mouton, The Hague, 1972, 646687. [5] S. Marcus. Mathematique et Linguistique. In Mathematique, Informatique et Sciences Humaines, Paris, 26, 1988, 103, 721. [6] S. Marcus. The status of research in the field of analytical algebraic models of language. In Current Issues in Mathematical Linguistics (C. MartinVide, ed.). ElsevierNorth Holland, Amsterdam, 1994, 321. [7] S. Marcus. Lingvistica matematica, azi. In Matematica in lumea de azi si de maine (C. Iacob, coord.), Editura Academiei, Bucuresti, 1985, 182186. [8] S. Marcus. Recent Romanian investigations in the field of mathematical and computational linguistics. Avtomaticeskaja Obrabotka Tekstov, Matem. Fyz. Fakulta, KL Praha, 1973, 1542. [9] S. Marcus. Mathematical and computational linguistics. In Current Trends in Romanian Linguistics (A. Rosetti, S. Golopentia Eretescu, eds.). Revue Roumaine de Linguistique 23, 1978, 14, 559588. [10] S. Marcus, C. MartinVide, G. Paun. Contextual grammars as generative models of natural languages. Computational Linguistics 24, 1998, 2, 245274. [11] S. Marcus. Semiotics and formal artificial languages. In Encyclopedia of Computer Science and Technology (A. Kent, J.C.Williams, eds.) 29, Ed. Marcel Dekker, New York, 1994, 393405; also in Encyclopedia of Microcomputers (A. Kent, J.C.Williams, eds.) 15, 1995, 299312. [12] S. Marcus. Contextual grammars and natural languages. Handbook of Formal Languages (G. Rozenberg, A. Salomaa, eds.), 2, Springer, Berlin, New York, 1997, 215235. [13] S. Marcus, C. MartinVide, G. Paun. A newold class of linguistically motivated regulated grammars. Computational Linguistics in the Netherlands 2000 (W. Daelemans et al., eds.), Selected Papers from the Eleventh CLIN Meeting, Ed. Rodopi, Amsterdam, New York, 2001, 111125. [14] B. H. Partee, A. Ter Meulen, R. Wall. Mathematical Methods in Linguistics. Kluwer, Dordrecht, 1990. [15] E. F. Beckenbach, Ch. B. Tompkins (eds.). Concepts of Communication: Interpersonal, Intrapersonal and Mathematical. John Wiley and Sons, New York, 1976. [16] D. G. Hays. Introduction to Computational Linguistics. American Elsevier, New York, 1967. [17] R. Thom. Stabilite Structurelle et Morphogenese. John Benjamins, New York, 1970. [18] Y. BarHillel. Four Lectures on Algebraic Linguistics and Machine Translation revised version of a series of lectures given in July 1962, before a NATO Advanced Summer Institute, Venezia, Italy.

ANEXA1: Exemple de cutare ntr-o arhiv de ntrebri frecvente (Usenet FAQ)

ANEXA 2: Definiii What is Mathematical Linguistics?


MATHEMATICAL LINGUISTICS is the study of mathematical structures and methods that are of importance to linguistics. As in other branches of applied mathematics, the influence of the empirical subject matter is somewhat indirect: theorems are often proved more for their inherent mathematical value than for their applicability. Both in phonology/morphology and in syntax/semantics the choice of linguistic formalism is to some extent influenced by considerations that go beyond the primary issue of descriptive adequacy. One important issue is Recognition Complexity. This concerns the complexity of the decision problem for membership in a language: it is assumed that a grammatical theory should have the property of guaranteeing that there is some reasonably rapid (polynomial in the lenght of the input) computation that will answer the question of whether a given sequence of words is a grammatical expression according to a given grammar. Human beings certainly do much more than this when they listen to an utterance and figure aut the meaning of what was said, so a grammatical theory that cannot even guarantee reasonably rapid confirmation of well-formedness is probably not psycholinguistically realistic. Another one is Learnability, which concerns what sorts of mathematically definable procedures could in principle correctly guess the grammars for languages. (Geoffrey K. Pullum and Andras Kornai)

What is Computational Linguistics?


Simply put, COMPUTATIONAL LINGUISTICS is the scientific study of language from a computational perspective. Computational linguists are interested in providing computational models of various kinds of linguistic phenomena. These models may be "knowledge-based" ("hand-crafted") or "datadriven" ("statistical" or "empirical"). Work in computational linguistics is in some cases motivated from a scientific perspective in that one is trying to provide a computational explanation for a particular linguistic or psycholinguistic phenomenon; and in other cases the motivation may be more purely technological in that one wants to provide a working component of a speech or natural language system. Indeed, the work of computational linguists is incorporated into many working systems today, including speech recognition systems, text-to-speech synthesizers, automated voice response systems, web search engines, text editors, language instruction materials, to name just a few. (Copyright 2000, The Association for Computational Linguistics)

S-ar putea să vă placă și