Sunteți pe pagina 1din 5

Sumarizarea automată a textelor

Sumarizarea automată este crearea unei versiuni mai scurte a unui text de către un
program. Rezultatul acestei operații conține totuși majoritatea punctelor importante din textul
original.
Fenomenul potopului de informații a însemnat că accesul la sumarizări coerente și corect
generate este vital. O dată cu creșterea accesului la date, a crescut și interesul în sumarizarea
automată. Un exemplu al utilizării tehnologiei de sumarizare sunt motoarele de căutare precum
Google.
Tehnologiile care construiesc un sumar coerent, dintr-un text de orice natură, trebuie să ia în
considerare diverse variabile precum lungimea, stilul de scriere și sintaxa pentru a realiza un
sumar util.
În general, se disting două posibilități de sumarizare: extracție și abstracție.
Tehnicile de extracție copiază informațiile considerate cele mai importante din text în sumar
(de exemplu, propozițiile, frazele sau paragrafele cheie), în timp ce abstracția implică parafrazarea
unor secțiuni din documentul sursă. În general, abstracția poate condensa un text mai bine decât
extracția, dar astfel de programe sunt mai greu de dezvoltat și necesită utilizarea tehnologiei de
generare de limbaj natural, domeniu care este în dezvoltare.
Există mai multe tipuri de sumarizări, depinzând de ceea ce este în vedere la crearea
sumarului unui text, de exemplu sumare generice sau sumare pentru interogări (uneori numite
sumare bazate pe interogare).
Sistemele de sumarizare sunt capabile să creeze și sumare de text bazate pe interogare și
sumare generice, în funcție de ceea ce este necesar utilizatorului. Sumarizarea documentelor
multimedia, precum imagini sau filme, este posibilă.
Unele sisteme vor genera sumare bazate pe un singur document sursă, în timp ce altele pot
utiliza mai multe documente drept sursă (de exemplu, o clasificare a unor articole de știri despre
același subiect). Astfel de sisteme se numesc sisteme de sumarizare multi-document.
Sumarizare asistată
Tehnicile de instruire automată din câmpurile apropiate precum recuperarea informațiilor
sau text mining au fost adaptate cu succes în folosul sumarizării automate.
Cu excepția Sumarizatoarelor Complet Automate (Fully Automated Summarizers (FAS)),
există sisteme care ajută utilizatorii cu sarcina sumarizării (Sumarizare Umană Ajutată de Mașină -
MAHS = Machine Aided Human Summarization), de exemplu prin evidențierea pasajelor candidate
la includerea în sumar, și sisteme care depind de oameni pentru post-procesare (Sumarizare
Mecanică Ajutată de Om - HAMS = Human Aided Machine Summarization).
Evaluare
O problemă care persistă în acest domeniu este aceea a evaluării. Judecata omenească nu
este precisă în ceea ce privește un sumar bun, însemnând că automatizarea procesului evaluării
este dificilă. Evaluarea manuală poate fi folosită, dar această metodă este consumatoare de timp
și muncă, deoarece oamenii trebuie să citească nu numai rezultatul sumarizării, dar și
documentele sursă. Alte probleme sunt cele care privesc coerența și acoperirea.
O măsură folosită în Conferințele anuale de Înțelegere a Documentelor organizate de NIST,
unde grupurile de cercetare își propun sistemele de sumarizare și traducere, este măsura ROUGE
(Recall-Oriented Understudy for Gisting Evaluation). În principiu, ea calculează suprapunerile n-
gramelor dintre sumarele generate automat și cele scrise de oameni. Un nivel înalt de
suprapunere indică un nivel înalt de concepte care apar în ambele sumare. Atenție însă, astfel de
măsuri de suprapunere nu sunt capabile să exprime gradul de coerență a sumarului. Rezoluția
anaforelor rămâne încă o problemă care trebuie rezolvată.

Obiectivul sumarizării automate este de a prelua informațiile de la o sursă , de a


extrage conținutul din ele și de a prezenta esențialul din acest conținut într-o formă
condensată , într-o manieră sensibilă la nevoile utilizatorului, fie el uman sau o aplicație.
Exemple de sumarizare există oriunde în viața cotidiană contemporană . Titlurile
ziarelor sunt frecvent rezumate ale articolelor conținute, scrise într-un stil atrăgător.
Abstractele articolelor științificece sunt rezumate în formă tradițională , scrise chiar de
autori sau de persoane special desemnate. Tabelele care arată statistici din fotbal pentru
un jucător sau pentru o echipă sunt în mare parte rezumate, precum sunt și recenziile
(pentru cărți sau filme), ghidurile programelor TV, programele conferințelor, prognozele
meteorologice, curriculum vitae, necrologurile, paginile web care listează resurse pentru
un anumit domeniu, cuprinsurile cărților sau revistelor, chiar și cataloagele cu produse
disponibile la comercianți.
Un sumarizator este un sistem de prelucrare automată a unuia sau mai multor texte,
cu scopul obținerii unui rezumat (sumar) util unui utilizator uman.
Exist o varietate de parametri care pot influența proiectarea, dezvoltarea și rezultatele unui
sistem de sumarizare:
1. Rata de compresie. Lungimea unui rezumat poate varia, în principiu, de la puțin mai
scurt decât lungimea intrării până la aproape zero. Acest lucru înseamnă că rata de condensare
(sau rata de compresie), descrisă în ecuația 1.1, poate varia de la puțin sub 100% până la puțin
peste 0%.

unde w, respectiv v, sunt sursa, respectiv rezumatul, iar length() reprezintă funcția de
lungime din punctul de vedere al criteriului ales (număr de biți, număr de cuvinte, număr de
propoziții sau chiar paragrafe). Funcția h reprezintă sistemul de sumarizare.
2. Auditoriu. Rezumatul focalizat pe utilizator poate format prin utilizarea unui limbaj
specific unui anumit tip de utilizator, luând în considerare interesele, cunoștințele și nevoile
acestuia. Pe de cealaltă parte, rezumatele generice sunt destinate unui grup larg și variat de
cititori.
3. Relațe față , de sursă . Rezumatele pot fi de două tipuri, în funcție de acest criteriu:
extracte și abstracte. Prima categorie se referă la rezumatele formate prin copierea integrală a
unor secțiuni din sursă . De exemplu, un rezumat cu rata de condensare de 25% va conține un sfert
din documentul inițial. Această proporție se poate referi la numărul de cuvinte, la numărul de
propoziții, la numărul de paragrafe. De obicei se aplic ă metode statistice pentru identificarea și
extracția propozițiilor cheie dintr-un articol. Spre deosebire, abstractele sunt rezumate al căror
text nu este prezent, cel puțin parțial, în surse. În general, un abstract oferă posibilitatea unui grad
de condensare mai mare: un abstract mai scurt poate oferi mai multă informație decât un extract
de aceeași lungime sau chiar mai lung.
4. Funcție. Din acest punct de vedere, rezumatele abstracte pot fi indicative, informative sau
critice. Un abstract indicativ oferă referințe pentru selectarea documentelor, în cazul dorinței de
aprofundare a subiectului. Un abstract informativ acoperă informa ia important ă din sursă cu
anumit grad de detaliu. Un abstract critic evaluează problematica articolului sursă , exprimând
opinia abstractorului despre calitatea lucrului autorului. Printre acestea se numără recenziile, care
includ păreri, feedback, identificarea slăbiciunilor, recomandări etc. Totuși, un astfel de sistem
este considerat peste scopul actual al sumarizatoarelor, deoarece depinde într-o mare măsură de
interpretarea culturală . Trebuie menționat însă că această distincție nu este una exclusivă .
Rezumatele informative sunt de obicei și indicative, iar cele critice pot fiindicative sau informative.
5. Coerență . Un text incoerent este unul nelegat, în care propozițiile nu sunt închegate
pentru a forma un întreg. Acest defect se poate datora referințelor anaforice sau
expresiilor temporale nerezolvate (sau rezolvate incorect), propozițiilor care repetă aceeași
informație (situație care se numește redundanță), logicii incorecte, lipsei unei organizări etc.
6. Acoperire. Rezumatele pot produse dintr-un singur document sau din mai multe
documente, așa cum este cazul sumarizării multi-document (MDS1). În cazul MDS, sistemul de
sumarizare identifică asemănările și/sau deosebirile dintre articole și, eventual, le semnalează în
rezumat.

Imaginea 1.1: Relația dintre rezumatele


indicative, informative și critice.

7. Limbă . Rezumatele pot fi monolingve (se procesează doar o singură limbă , cu Ieșirea în
aceeași limbă ), multilingve (se procesează mai multe limbi, cu ieșirea într-o limbă din cele de la
intrare) sau translingve (se procesează mai multe limbi, dar ieșirea este într-o altă limbă decât
cele de intrare). De asemenea, rezumatele pot fi restricționate la un limbaj particular, un
vocabular specializat (în cazul în care utilizatorul dorește, de exemplu, un manual tehnic), sau la un
limbaj adecvat elevilor sau turiștilor străini, care au nevoie de un vocabular simplu, fără
construcții complexe.
8. Gen. Un sistem de sumarizare poate aplica strategii speciale pentru varietăți diferite de
texte, precum rapoartele științifice sau tehnice, articolele de știri, mesajele e-mail, cărți, editoriale
etc.
9. Media. Rezumatele pot conține diferite tipuri media (text, audio, tabele, imagini și
diagrame, filme). În sumarizarea multimedia, intrarea și ieșirea constau într-o combinare de tipuri
media distincte.
În cazul oricărei aplicații, importanța acestor parametri variază , depinzând în principal de
domeniul în care ea va fi utilizată și cărui tip de grup îi este adresat rezumatul produs de ea. Este
improbabil ca în dezvoltarea unui sistem să se țină cont de toți parametrii.
Abordări
Metodele de bază pentru sumarizare pot fiîmpărțite în două categorii, în funcție de
procesările lingvistice utilizate.
1. Abordări superficiale (shallow approaches). În cazul acestora nu se merge mai departe de
un nivel de reprezentare a sintaxei propoziționale. Este posibil, totuși, ca unele cuvinte să fie
analizate și semantic. Rezultatul acestor abordări este de obicei un extract, obținut prin extracția
de propoziții. Acest fapt impune însă verificarea incoerențelor care pot apărea din cauza
extracției, rearanjării textului, referințelor anaforice nerezolvate etc.
2. Abordări aprofundate (deeper approaches). Acestea presupun cel puțin un nivel de
reprezentare a semanticii propoziționale. De obicei, aceste sisteme produc abstracte al căror text
este generat. De aceea obiectivul lor este crearea unui text care să fie coerent, folosind pentru
aceasta diverse reguli despre modul în care segmentele de discurs se leagă între ele.

S-ar putea să vă placă și