Documente Academic
Documente Profesional
Documente Cultură
a Institutul Federal de Educație, Știință și Tehnologie din Santa Catarina, Gaspar, 89111-009, SC, Brazilia
b Program de absolvire în Inginerie Electrică și Informatică Industrială, Universitatea Federală de Tehnologie – Paraná, Curitiba, 80230-901, PR, Brazilia
Cuvinte cheie: Valorile de evaluare automată joacă un rol important în evaluarea sistemelor de subtitrări video. Valorile populare utilizate pentru evaluarea unor
Măsuri de evaluare automată
astfel de abordări se bazează pe potrivirea cuvintelor și ar putea să nu evalueze calitatea subtitrărilor generate automat din cauza ambiguității
Metrici învățate
inerente în limbajul natural. Mai mult, ele necesită multe propoziții de referință pentru un punctaj eficient. Odată cu dezvoltarea rapidă a
Subtitrări video
metodologiilor de subtitrare a imaginilor și video folosind învățarea profundă în ultimii ani, au fost propuse multe metrici pentru evaluarea
Încorporarea cuvântului
unor astfel de abordări. În acest studiu, prezentăm un sondaj al valorilor de evaluare automată pentru sarcina de subtitrări video.
Mai mult, evidențiem provocările în evaluarea subtitrărilor video și propunem o taxonomie pentru a organiza metricile de evaluare existente.
De asemenea, descriem și identificăm pe scurt avantajele și deficiențele acelor metrici și identificăm aplicațiile sau contextele în care aceste
metrici pot fi utilizate mai bine. Pentru a identifica avantajele și limitările valorilor de evaluare, le comparăm cantitativ folosind videoclipuri din
diferite seturi de date utilizate pentru sarcina de descriere video. În cele din urmă, discutăm avantajele și limitările metricilor și propunem
câteva direcții viitoare de cercetare promițătoare, cum ar fi măsurarea semantică, explicabilitatea, adaptabilitatea, extinderea la alte limbi,
limitările setului de date și metricile multimodale de referință liberă.
Cuprins
Understudy)............................................ .................................................. ...................................... 6 4.1.2. METEOR (Metrica pentru evaluarea traducerii cu ordonare
explicită)........................................... ................................................. 6 4.1.3. CIDEr (Evaluare a descrierii imaginii bazată pe consens) .......................................... .................................................. .................... 7
4.1.4. ROUGE (Substudiu orientat spre reamintire pentru evaluarea generală)........................................ .................................................. .............. 7 4.1.5. SPICE (Evaluare Semantic Propositional Image
Caption Evaluation) .................................. .................................................. ............... 7 4.1.6. ADM (Distanța Mișcătorului de cuvinte) ............................................. .................................................. .................................................
7 4.1.7.
WEmbSim.................................................. .................................................. .................................................. ........................... 8 4.1.8. BERTScore (Reprezentările codificatorului bidirecțional din
Scorul Transformers) ......................................... ....................................... 8 4.1.9. SMURF (fuziunea semantică și lingvistică a înțelegerii) .................................. .................................................. ................. 8
4.1.10. VIFIDEL (Fidelitate vizuală pentru evaluarea descrierii imaginii) .................................. .................................................. ............. 9 4.1.11. TIGEr (valoarea bazată pe împământarea text-la-imagine
pentru evaluarea subtitrărilor imaginii)............................ ........................................ 9 4.1.12. REO (Relevanță, Extranețe, Omisiune)................................................ .................................................. ............................................
9 4.1.13. ViLBERTScore (Vision-and-Language BERT Scor)........................................ .................................................. ............................. 9 4.1.14. LEIC (Învățați să evaluați subtitrările
imaginilor)........................................... .................................................. ............................. 10 4.1.15. FAIEr (Fidelitate și adecvare asigurate Valoarea de evaluare a subtitrării
imaginii) ....................................... .............................................. 10 4.1.16 . NNEval (Metrica de evaluare bazată pe rețea neuronală) .......................................... .................................................. ........................
10 4.1.17. LCEval (Learned Composite Metric for Caption Evaluation) ............................................ .................................................. .............. 10 metrici fără
referințe .............................. .................................................. .................................................. .......................................... 10 4.2.1. CLIPScore (Limbaj contrastant–Scor de pre-antrenament cu
imagine) ....................................... .................................................. ............... 10
4.2.
Autor corespondent la: Institutul Federal de Educație, Știință și Tehnologie din Santa Catarina, Gaspar, 89111-009, SC, Brazilia.
Adrese de e-mail: andrei.inacio@ifsc.edu.br (AdS Inácio), hslopes@utfpr.edu.br (HS Lopes).
https://doi.org/10.1016/j.mlwa.2023.100488 Primit 22
noiembrie 2022; Primit în formă revizuită la 1 iunie 2023; Acceptat la 27 iulie 2023 Disponibil online la 11 august 2023
2666-8270/© 2023 The Author(i). Publicat de
Elsevier Ltd. Acesta este un articol cu acces deschis sub licența CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/4.0/).
Machine Translated by Google
4.2.2. UMIC (metrică fără referință pentru subtitrărea imaginilor)........................................... .................................................. .......................... 10 4.2.3. Scorul
EMS (Scorul bazat pe potrivire încorporarea) .......................................... .................................................. .................................. 11 4.3. Cronologia valorilor de
evaluare automată ............................................. .................................................. .................................................. 11
5. Experimente empirice.................................................. .................................................. .................................................. ...................................... 12 5.1. Valori populare pentru
subtitrări video............................................. .................................................. .................................................. ....... 12 5.2.
Valori potențiale pentru subtitrări video ................................................ .................................................. .................................................. ..... 12 Valori specifice
5.3. pentru subtitrări video....................................... .................................................. .................................................. ............. 13
5.4. Analiză................................... .................................................. .................................................. .................................................. ........ 14 6.
Discuție ............................................. .................................................. .................................................. .................................................. ............. 15 Limitări ale metricilor de
6.1. evaluare ............................... .................................................. .................................................. .................... 15 Extindere posibilă la alte
6.2. limbi ........................ .................................................. .................................................. ............................. 16 7. Concluzii și tendințe de
cercetare................ .................................................. .................................................. .................................................. .... 16 Declarație de contribuție a autorului
CRedit ........................................ .................................................. .................................................. .............. 17 Declarație de concurență de
interese.............................. .................................................. .................................................. ..................................... 17 Disponibilitatea
datelor .......... .................................................. .................................................. .................................................. ............................. 17
Mulțumiri................ .................................................. .................................................. .................................................. ........................ 17
Referințe................................ .................................................. .................................................. .................................................. ............................. 17
În ultimii ani, am asistat la o creștere exponențială a cantității de imagini și convenționale pentru a evidenția complexitatea provocării analizei automate a
videoclipuri produse și stocate de oameni și întreprinderi și puse la dispoziție pe abordărilor de subtitrări video, precum și deficiențele primare prezentate în astfel de
acestora în limbaj natural a atras atenția cercetătorilor în ultimii câțiva ani (Aafaq,
În primul rând, este furnizată o propoziție de referință (caseta albastră) pentru fiecare videoclip.
Mian, Liu, Gilani, & Shah, 2019; Rafiq, Rafiq, & Choi, 2021). Compararea imaginilor cu
Următorul pas este evaluarea celor două propoziții candidate ipotetice, A (caseta
videoclipurile, înțelegerea acestora din urmă este mult mai dificilă, deoarece necesită
roșie) și B (caseta verde). Prima este corectă din punct de vedere semantic, iar a doua
tehnici sofisticate pentru a procesa diversitatea aparițiilor umane și obiectelor care
este greșită. Propoziția corectă a candidatului a obținut un punctaj mai mic decât
apar în diverse medii și, de asemenea, cu interacțiuni complexe între ele în timp. O
cea incorectă, conform parametrilor menționate mai sus. Acest lucru se datorează
abordare care descrie cu acuratețe evenimentele în videoclipuri poate fi utilă în multe
faptului că au mai puține cuvinte exacte în propozițiile lor de referință.
aplicații, cum ar fi interacțiunea om-robot, indexarea video, asistența pentru
În plus, acuratețea unor astfel de măsuri este îngreunată semnificativ de numărul
persoanele cu deficiențe de vedere, înțelegerea limbajului semnelor și supravegherea
mic de fraze de referință. De fapt, propozițiile de referință cerute de aceste valori
video inteligentă, pentru a numi câteva.
ar putea să nu acopere complet conținutul vizual, deoarece sunt traduceri selective ale
videoclipului realizate de arbitri umani sau de un sistem automat (Jiang et al., 2020 ) .
1
https://github.com/tylin/coco-caption
2
Machine Translated by Google
Fig. 1. Este prezentat un exemplu de evaluare a subtitrării unui videoclip din setul de date ActivityNet Captions (5pqVrMgiMcs). BLEU1, BLEU2, BLEU3 și BLEU4 denotă metrica BLEU cu 1 gram, 2, gram, 3 grame și,
respectiv, 4 grame. Valorile tradiționale bazate pe referințe pot eșua să evalueze propozițiile candidat din cauza numărului mic de propoziții de referință.
În plus, în ciuda faptului că nu descrie scena video, propoziția candidatului „A” are mai multe cuvinte similare cu propoziția de referință decât propoziția candidată „B” și a obținut un scor mai bun decât
subtitrarea corectă „A”. Cu excepția CIDEr, care are un interval de [0, 10], toate scorurile metrice sunt scalate în intervalul [0, 1]. (Pentru interpretarea referințelor la culoare din legenda acestei figuri, cititorul este
trimis la versiunea web a acestui articol.)
ar obține un scor mai mic deoarece sunt scrise cu cuvinte diferite. seturi de date. În continuare, Secțiunea 6 discută limitările metricilor de evaluare.
În plus, valorile care se bazează pe informații vizuale pentru a calcula calitatea unei În cele din urmă, Secțiunea 7 prezintă concluziile și subliniază direcțiile viitoare
propoziții candidate se confruntă și cu dezavantaje din cauza problemei decalajului de cercetare.
semantic.
Deși unele studii de revizuire privind subtitrările video au fost publicate în 2. Subtitrări video vs subtitrări imagini
ultimii câțiva ani (Aafaq și colab., 2019; Amirian, Rasheed, Taha și Arabnia, 2020;
Jain și colab., 2022), ele compară de obicei metode similare, metrici și seturi de date Oamenii pot descrie cu ușurință conținutul vizual al imaginilor și
utilizate de abordările existente și nu țin cont de metricile de evaluare non- videoclipurilor folosind limbajul natural. Cu toate acestea, aceasta este încă o sarcină
standard. Într-un studiu recent privind subtitrările imaginilor bazate pe învățarea dificilă pentru computere. Generarea de descrieri în limbaj natural din conținut
profundă (Stefanini et al., 2023), cercetătorii au analizat valorile nestandard ca o vizual (imagini și videoclipuri) presupune rezolvarea mai multor probleme complexe,
alternativă sau o completare la valorile standard pentru o evaluare mai precisă a printre care: detectarea și clasificarea obiectelor; recunoașterea acțiunii umane;
performanței, chiar și atunci când subtitrările cu adevărul de bază nu sunt detectarea relațiilor vizuale dintre oameni și obiecte.
disponibile. în timpul etapei de inferență.
Acest referat prezinta un studiu al parametrilor de evaluare pentru sarcina de Sarcinile de subtitrări pentru imagini și videoclipuri necesită „traducere”
subtitrare video. Din câte cunoștințele noastre, acesta este primul studiu de conținutului vizual într-o secvență de cuvinte, care pot fi văzute ca sarcini similare.
revizuire aprofundat despre acest subiect. Merită remarcat faptul că două valori În loc să se ocupe de imagini cu informații structurale statice, sarcina de subtitrare
populare, CIDEr și SPICE, au fost propuse inițial pentru sarcina de subtitrăre a video trebuie să proceseze și să înțeleagă conținutul vizual prezentat într-o
imaginii. Cu toate acestea, acestea au fost utilizate frecvent pentru evaluarea secvență de cadre și să le traducă într-o secvență de cuvinte. Pentru a realiza
descrierilor video. Prin urmare, am luat în considerare și câteva valori promițătoare acest lucru, o abordare a subtitrării video trebuie să surprindă nu numai cadrele
propuse recent pentru evaluarea subtitrărilor imaginilor în acest sondaj. Acestea individuale, ci și relațiile și ordinea lor în timp. Ca urmare, abordarea trebuie să
fiind spuse, principalele contribuții ale acestui studiu sunt rezumate după cum aibă o înțelegere contextuală puternică a conținutului temporal prezentat în
urmează: videoclip. Mai mult, componenta temporală a videoclipurilor introduce un nivel
suplimentar de dificultate, deoarece necesită recunoașterea modului în care
• Se propune o taxonomie a metricilor existente; • Sunt
conținutul vizual evoluează în timp. Aceasta poate implica urmărirea obiectelor,
identificate și discutate avantajele și neajunsurile indicilor existente; • Sunt
detectarea mișcării și identificarea acțiunilor. Astfel, în comparație cu subtitrărea
sugerate aplicațiile
imaginilor, subtitrărea video este mai dificilă, deoarece necesită tehnici sofisticate
sau contextele în care aceste metrici pot fi utilizate mai bine. • Este prezentată o
pentru a face față diversității aparițiilor umane și obiectelor în diferite medii,
comparație empirică
precum și relațiile lor în schimbare în timp (Ji & Wang, 2021 ) .
între principalele metrici pentru a contrasta rezultatele acestora.
3
Machine Translated by Google
tabelul 1
Abordările timpurii propuse pentru subtitrările video au început cu
Seturi de date utilizate pentru evaluarea abordărilor de descriere video.
metode bazate pe șablon. În aceste abordări, obiectele, activitățile,
iar scenele au fost mai întâi detectate și apoi utilizate într-un șablon de propoziție (Aafaq Setul de date Domeniu #Videoclipuri #propoziții #vocabular
și colab., 2019; Liu, Xu și Wang, 2019). Deși acestea Subtitrări ActivityNet Deschis 20.000 100.000 1.348.000
Șarade Uman 9848 27.847 4144
metodele puteau genera descrieri bazate pe gramatică, au făcut-o
MSR-MTB Deschis 10.000 200.000 29.316
nu luați în considerare asocierile spațiale și temporale dintre entități.
MSVD Deschis 1970 70.028 13.010
Inspirat de dezvoltarea exponențială a tehnicilor de învățare profundă în TACoS Gătit 14.105 52.593 2000
zonele CV și NLP, cercetarea subtitrării video a apărut recent You Cook2 Gătit 2000 15.400 2600
3. Seturi de date pentru subtitrări video propoziție pentru un segment video și o descriere detaliată pentru fiecare
pasul procedurilor de gătit.
Măsurile de evaluare discutate în această lucrare au fost folosite pentru • YouCook2 (Zhou, Xu și Corso, 2018): conține 15.400 de propoziții
efectuează o analiză cantitativă a descrierilor video folosind seturi de date ca de clipuri video în 2000 de videoclipuri nedecupate descărcate din
repere. Prin urmare, performanța metricilor este strâns legată de YouTube, toate videoclipurile cu rețete de gătit instructive. Descrierile
calitatea, dimensiunea și diversitatea seturilor de date. Subtitrări video existente au fost furnizate de doi adnotatori umani. Până în prezent, acesta este
modelele sunt instruite pe seturi de date disponibile publicului și folosesc un hold-out cel mai mare set de date video de instruire orientat spre sarcini pentru computer
strategie de validare, în urma studiilor existente care utilizează secțiuni standard de comunitate de viziune.
instruire, validare și testare. Această abordare de formare asigură un echitament
comparație cu metodele de ultimă generație. Valorile prezentate în aceasta
4. Măsuri de evaluare
studiul poate fi folosit pentru a monitoriza performanța modelului în timpul antrenamentului și
pentru a raporta performanța la setul de testare după antrenament. Spre cele mai bune dintre noi
Această secțiune analizează în mod obișnuit valorile de evaluare automată
cunoștințe, niciun studiu din literatură nu a folosit o strategie diferită de validare, posibil
folosit pentru sarcini de subtitrări video. Mai mult, luăm în considerare și în acest sens
din cauza costurilor de calcul. Tabelul 1 prezintă
studiați unele valori care au fost propuse în mod explicit pentru subtitrărea imaginilor,
detaliile principale ale celor mai utilizate seturi de date, care pot fi clasificate
dar sunt utile și promițătoare și pentru sarcina de subtitrări video. Noi
în trei domenii: ''deschis'' (videoclipuri nespecifice); „uman” (concentrat pe
nu a inclus studii care propun metrici de evaluare pentru Natural
activități centrate pe om); și „gătit” (cu privire la gătit
Sisteme de generare a limbii (NLG), cum ar fi traducerea automată,
Activități). Exemple și analiză detaliată a seturilor de date menționate
Generare dialog, rezumare, răspunsuri la întrebări sau alte sarcini
din Tabelul 1, este în afara domeniului de aplicare al acestei lucrări, precum și lucrările în care
diferit de subtitrările pentru videoclipuri sau imagini.
fiecare măsurătoare a fost utilizată și poate fi găsită în altă parte (Aafaq et al., 2019;
De asemenea, propunem o taxonomie care caracterizează și clasifică
Amirian și colab., 2020; Jain și colab., 2022).
metrici de evaluare automată bazate pe dependența lor de referință
• Subtitrări ActivityNet (Krishna, Hata, Ren, Fei-Fei și Niebles, propoziții, domeniul și aspectele de similitudine. Un studiu de revizuire anterior
2017): conține 20.000 de videoclipuri preluate din setul de date ActivityNet a propus o taxonomie pentru valorile subtitrării imaginilor (Sharif, Nadeem,
(Heilbron, Escorcia, Ghanem, & Niebles, 2015), în care fiecare Shah, Bennamoun și Liu, 2020). Într-un astfel de studiu, valorile au fost împărțite în
videoclipul are, în medie, 3,65 propoziții localizate temporal și a două categorii: bazate pe date și proiectate manual. Bazat pe date
total de 100.000 de sentințe. Toate videoclipurile au fost adnotate de Amazon metrica implică învățarea de a măsura corespondența propoziției prin
Muncitori mecanici turci. Setul de date a fost propus pentru o abordare bazată pe date, în timp ce valorile proiectate manual folosesc un set de criterii
sarcină densă de subtitrări video, care urmărește să genereze multiple sau caracteristici realizate manual. Recent, au fost propuse multe metrici
propoziții informative și diverse pentru un videoclip care conține scurte, pentru a evalua subtitrările direct din conținutul vizual fără referință
evenimente lungi sau chiar suprapuse. propoziții. Astfel, taxonomia propusă prezentată în acest studiu diferă
• Charades (Sigurdsson et al., 2016): oferă 27.847 descrieri de la Sharif, Nadeem et al. (2020) prin luarea în considerare a unicului
din 9848 de videoclipuri adnotate de lucrătorii Amazon Mechanical Turk. caracteristici și aspecte ale valorilor mai recente care sunt raportate în
Fiecare videoclip are o durată medie de 30 s și include 15 tipuri acest studiu.
a scenelor interioare ale activităților umane din viața de zi cu zi. Este de asemenea disponibil O schiță a unei taxonomii pentru metricile examinate în această lucrare este
66.500 de intervale localizate temporal pentru 157 de clase de acțiune și prezentate în Fig. 2. Valorile sunt împărțite în două categorii principale:
41.104 etichete pentru 46 de clase de obiecte. A fost propus pentru activitate bazate pe referințe și fără referințe. Valorile bazate pe referințe oferă a
înțelegere, inclusiv clasificarea acțiunilor, localizarea și scor de similaritate între una sau mai multe propoziții de referință și o țintă
descrieri video. propoziție. Între timp, valorile fără referințe obțin similaritate între
• Microsoft Research Video Description Corpus (MSVD) (Chen și o propoziție țintă și informații vizuale (imagine sau video). Apoi, fiecare
Dolan, 2011): acesta este, posibil, cel mai utilizat set de date pentru categoria poate fi împărțită suplimentar în subcategorii învățate și realizate manual.
sarcină de subtitrăre video. Conține 70.028 de sentințe din 1970 Abordările realizate manual folosesc măsuri deterministe
clipuri video colectate de lucrătorii Amazon Mechanical Turk. Fiecare de similitudine între un candidat și propozițiile de referință, cum ar fi
videoclipul conține o activitate principală care trebuie descrisă, de obicei de durată ca scorul F sau asemănarea cosinusului. Metodele învă ate de obicei
intre 10 si 25 s. În plus, sunetul este dezactivat în toate videoclipurile necesită pregătirea unui model (rețea neuronală) pentru a prezice probabilitatea
clipuri. o legenda candidată fiind o descriere generată de oameni.
4
Machine Translated by Google
5
Machine Translated by Google
4.1.3. CIDEr (Evaluare a descrierii imaginilor pe bază de consens) Subsecvență comună), ROUGE-W (Cea mai lungă subsecvență comună
CIDEr (Vedantam et al., 2015) este prima măsurătoare care a fost în mod specific ponderată) și ROUGE-S (Skip-Bigram Co-Occurrence Statistics). The
propus pentru evaluarea abordărilor de subtitrăre a imaginilor. Acesta propune a Valoarea ROUGE-L este adesea folosită pentru a evalua subtitrările pentru imagini și videoclipuri
protocol de evaluare bazat pe consens folosind termenul Frecvență-Inversa abordari. Este o abordare bazată pe reamintire care utilizează măsura F pentru
Frecvența documentului (TF-IDF) pentru a capta frecvența fiecărui cuvânt calculați scorul, folosind suprapunerea n-grame și cea mai lungă comună
într-o propoziție candidat într-o listă de propoziții de referință. Ideea principala subsecvente intre doua afirmatii. ROUGE-L este calculat de
este de a evalua cât de bine se potrivește o propoziție candidată cu consensul urmatoarele ecuatii:
a unui set de descrieri de imagini = { 1 , 2 , …, }. Fiecare propoziție este (,)
= (10)
reprezentat ca un set de n-grame, iar un n-gram dat este un set de una ||
sau mai multe cuvinte. TF-IDF ( ) pentru fiecare n-gramă se calculează folosind:
= (,)
(11)
ℎ( ) | | | |
( )= (5)
ℎ( (1 + 2)
)( (1, ℎ ( )) )
_ == (12)
apare într-o + 2
Unde, ℎ ( ) este de câte ori o propoziție de referință
-gram ℎ ( ) este numărul ,de ori când apare un -gram într-o propoziție unde, ( , ) denotă lungimea unei subsecvențe comune cele mai lungi
candidată este vocabularul tuturor -gramelor
, de și , | | este lungimea lui , | | este lungimea și controalele ,
și este numărul tuturor imaginilor din setul de date. Termenul TF conferă importanța relativă a și et al., 2015). și este de obicei setat la 1,2 (Chen
ponderare mai mare la n-grame care prezintă o frecvență mai mare în
propoziție de referință utilizată pentru descrierea imaginii, în timp ce al doilea termen
de ( ), IDF, atenuează ponderea n-gramelor care prezintă frecvente 4.1.5. SPICE (Evaluare Semantic Propositional Image Caption Evaluation)
apariția în toate imaginile din setul de date prin împărțirea numărului de Această măsurătoare a fost concepută de Anderson și colab. (2016) pentru a aborda
imagini în care apare în oricare dintre legendele sale de referință. limitări ale parametrilor de evaluare automată existente bazate pe -
Asemănarea dintre fiecare legendă de referință și o propoziție candidat grame, cum ar fi BLEU, METEOR și CIDEr. De obicei, aceste valori
este calculată prin distanța medie cosinus a atribuiți un scor scăzut unei propoziții generate care transmite aproape același lucru
vectori TF–IDF. semnificație de referință, dar nu are cuvinte în comun.
1 () ( ) A fost propus inițial pentru sarcina de subtitrare a imaginii, dar asta
(, )= (6) este, de asemenea, folosit pentru a evalua sistemele de subtitrări video. Metrica
‖ ( )‖‖ ( )‖
codifică obiecte, atribute și relații din propoziții candidate și de referință
unde, ( ) este un vector format din toate -gramele ( ) de lungime și în reprezentări semantice bazate pe grafice ( ) și ( ),
|| ( ) || este mărimea vectorului ( ). Aceeași definiție este respectiv, prin utilizarea unui arbore de analiză a dependențelor.
folosit pentru ).
()= ( ), ( ), () (13)
( Când utilizați -grame mai lungi, este posibil să captați informații seman-
tice bogate și proprietăți gramaticale. CIDEr-ul cu multiple unde, ( ) este un set de obiecte menționate într-o propoziție , ()
lungimile de -grame pot fi calculate ca: () ( ) este mulțimea de hiper-muchii reprezentând relații între
obiecte și ( ) ( ) obiecte. este setul de atribute asociate cu
(, )= (, ) (7)
=1 În timpul analizei potrivirii între tupluri, se iau în considerare tehnicile de
unde a fost definit empiric de autor ca 1 . sinonime și de lemizare care permit potrivirea cuvintelor cu
CIDEr-D este o variantă a CIDEr și este obișnuit diferite forme de inflexiune. Tuplurile logice dintr-un grafic al scenei sunt
evaluează aplicațiile de subtitrări pentru imagini și video. Introduce o a definit funcția , la fel de:
Acest pachet, dezvoltat de Lin (2004), a vizat automatul reprezentând cuvintele ca vectori de încorporare a cuvintelor. Calculează
evaluarea rezumatelor. Este format din patru variații metrice diferite distanța minimă pe care ar trebui să o parcurgă cuvintele dintr-un document
ROUGE-N (Statistici de concomitent cu N-grame), ROUGE-L (Cel mai lung la cuvintele dintr-un alt document.
6
Machine Translated by Google
unde este o matrice de flux în R( × ) și 0 înseamnă cât 4.1.9. SMURF (fuziune semantică și lingvistică de înțelegere)
Word dintr-un document se deplasează la Word într-un alt document, SMURF (Feinglass & Yang, 2021) este o metrică de evaluare automată
este dimensiunea vocabularului, ( , ) = ‖ ‖2 este distanța dintre care combină un nou algoritm de evaluare semantică SPARCS (Seman-tic
cuvânt și cuvânt codificate în spațiu de încorporare -dimensional, este Proposal Alikeness Rating using Concept Similarity) și noi algoritmi de
′ evaluare a influenței SPURTS (Stochastic Process Understanding).
frecvența cuvântului care apare de ori în document, este
frecvența cuvintelor care apare de ori în document. Evaluare folosind seturi tipice) și MIMA (meta-analiză integrată în model)
atât pentru analiza la nivel de legendă, cât și la nivel de sistem. Un transformator bazat
model precum BERT sau RoBERTa (Liu, Ott et al., 2019) este utilizat pentru a extrage
4.1.7. WEmbSim
caracteristici din texte și surprind atât sintaxa, cât și morfologia
Similar cu WMD, WEmbSim (Sharif, White, Bennamoun, Liu și
text.
Shah, 2020) folosește încorporarea cuvintelor pentru a codifica cuvintele într-un spațiu
MIMA a fost propus pentru a estima tipicitatea în evaluarea a
,
de încorporare. Folosind o matrice de încorporare, fiecare propoziție este mapată sentința candidatului după cum urmează.
o reprezentare vectorială prin intermediul Mean of Word Embeddings (MOWE), ca
definită în Ec. (19) și notat cu funcția ̃(.). Apoi, distanța MIMA( , ) = 1 strat median( cap[ f scăzut( , )]) (26)
între două propoziții se calculează prin asemănarea cosinusului (cossim),
după cum urmează. f scăzut( , ) =
1 2(( , )) + ( ( , )) ( ( , )) (27)
=
̃()= (19)
,
(( , )) + ( ( , ))
Unde denotă fluxul informa ional în termeni de aten ie
|̃ . ̃|
, (20) dimensiunile ( , ), este ( , ) și distribuția lor comună ( , ),
cossim( ̃ ̃)= |̃ || ̃|
informația reciprocă normalizată, definită în Witten și Frank
(21) (2005), care este o măsură a dependenței reciproce sau a redundanței
( | ) = cossim( ̃ ( ), ̃ ( )),
între două seturi de variabile aleatoare, sunt ponderile straturilor de atenție
unde, este o regulă folosită pentru a specifica cum să combinați scorul pentru mai multe calculat prin modelul BERT distilat dintr-un vector secvență de
propoziții de referință. Autorii sugerează utilizarea combinației cuvintele simbolizate ale unei propoziții candidate (, ( , )) este entropia
funcția, deoarece arată în mod constant o performanță mai bună decât cea sau distribuției atenției ( , ) pentru a-lea dimensiune a atenției., ( ( , )) este
funcția de combinare a regulilor, ̃ (.) este o funcție care mapează un dat entropia distribuției atenției ( , )
propoziție candidată = [ 1 , ] sau o2 ,propoziție
…, de referință = pentru a-a dimensiune a atenției, ( ( , )) este entropia lui
[ 1 , 2 , …, ] într-o reprezentare vectorială caracteristică, este numărul distribuția comună a atenției ( , ) între a-a și a-a atenție
dimensiuni.
a cuvintelor dintr-o propoziție dată și este indexul celei de-a treia referințe
propoziție. MIMA servește ca bază pentru evaluarea fluenței textului de intrare,
WEmbSim a fost dezvoltat ca o metrică de evaluare automată pentru care pot fi împărțite în gramatică și stil. Gramatica depinde de
tipicitatea întregii propoziții și se calculează folosind stilul depinde .
sisteme de subtitrare a imaginilor, bazate pe măsurarea performanței la nivel de sistem
de distincția sau atipicitatea cuvintelor în mod direct
pe asemănarea semantică. Cu toate acestea, similar cu SPICE, nu ia în considerare
asociat cu descrierea imaginii. Astfel, punând accent pe stil, SPURTS
fluență și se poate lupta să facă distincția între propozițiile cu
aceleași cuvinte în ordine diferite. a fost propus pentru a evalua distinctia sau atipicitatea cuvintelor
în secvența candidată fără cuvinte stop (notate ca ). Aici,
a fost utilizat modelul RoBERTa distilat deoarece are performanțe bune în
4.1.8. BERTScore (Reprezentările codificatorului bidirecțional din Scorul afara distribuției.
Transform-ers)
BERTScore (Zhang, Kishore, Wu, Weinberger și Artzi, 2020) este SPURTS = 1 MIMA( ,) (28)
o valoare automată pentru traducerea automată și subtitrărea imaginilor
Metrica SPARCS se concentrează în principal pe semantică și este definită ca
sisteme. Utilizează modelul BERT (Devlin, Chang, Lee și Toutanova, urmează.
2019) pentru a extrage reprezentarea vectorială la nivel de simbol din
()()
propozițiile candidat și de referință. Apoi, valorile Precizie și Recall sunt | ( )|
(,)= (29)
calculat după cum urmează: ()()
( + eu [ ( ) ( ) = 0] )
| ( )|
1
= max ( ) (22) () )(
||
(, )= (30)
()()
1
= max ( ) (23) 2(,)(,)
SPARCS = 1(,)= (31)
(,)+(,)
||
7
Machine Translated by Google
Unde este setul de concepte candidat, ( ) este setul de legendă de referință, clasament în motoarele de căutare web. În mod similar, cel este Idealul
( ,)
este o funcție care mapează concepte la un set de titluri de referință și calculate pe baza propozi ă. este bazat iilor de referin
( , ,)
este frecvența documentului, care este utilizată pentru a estima caracterul tipic al pe KL Divergence (Kullback & Leibler, 1951) și măsoară distanța
concept de-a lungul propozițiilor. între cele două distribu ii. Scorul final variază de la 0 la 1, unde
În cele din urmă, metrica SMURF poate fi definită după cum urmează. un scor mai mare indică o legendă mai bună.
dacă SPARCS′< T,
4.1.12. REO (Relevanță, Extranețe, Omisiune)
SPARCS′
= { SPARCS′ +++ ℎ Metrica REO (Jiang et al., 2019) oferă o evaluare mai informativă în
comparație cu alte valori, deoarece generează scoruri de la trei
Unde = (MIMA′ , 0) este o penalizare anormală gramaticală, =
perspective diferite: Relevanță, Extranețe și Omisiune. A extrage
(SPURTS′ , 0) este o recompensă de stil și = 1,96 este o recompensă empiric
caracteristici din imagini și propoziții (referințe și candidat), REO
prag definit de autori.
folosește și modelul SCAN, care creează o semantică multimodală
spa iu. Scorul de relevanță este apoi calculat folosind asemănarea cosinusului
4.1.10. VIFIDEL (fidelitate vizuală pentru evaluarea descrierii imaginii)
(cossim) distanța dintre caracteristicile candidat și de referință, ca
VIFIDEL (Madhyastha, Wang, & Specia, 2019) a fost dezvoltat inspirat de
prezentat mai jos:
metrica ADM pentru a estima fidelitatea unui
legenda referitoare la conținutul unei imagini date. Măsoară 1
= ( , ) (38)
asemănarea dintre obiectele detectate în imagine și cuvintele din
=1
legendă generată folosind metrica WMD. În plus, poate include descrieri de
unde, este caracteristicile de context ale propoziției candidatului și de-
referință atunci când sunt disponibile pentru a îmbunătăți evaluarea.
notează fie caracteristicile imaginii, fie caracteristicile contextului extrase din referință
propoziții.
(,)=( ( , )) (32) Scorurile de extralimitare sunt calculate prin calculul distanței de similaritate
între vectorul context vertical, după cum și vectorul său de context original
unde I este o reprezentare vectorială semantică care conține normalizate
, urmează:
pungă cu etichete de categorii de obiecte pentru imaginea I și este geanta normalizată
reprezentarea cuvintelor pentru descrierea S.
= (39)
Această măsurătoare poate fi extinsă pentru a utiliza referințe de propoziție, când 2
‖‖
disponibile, pentru a evalua importanța obiectelor dintr-o imagine. Fie =
, 2 ,… , ) să fie un set de referințe umane pentru o imagine dată, A 1
1 = ( ) (40)
,
( greutatea penalizării , pentru un cuvânt (eticheta obiectului din imaginea I sau un cuvânt din a =1
sentința candidatului) se calculează astfel:
unde sunt caracteristicile contextului propoziției candidate, repre-
1 {}
( ,) trimite conținutul irelevant al adevărului la sol la ℎ regiunea imaginii,
= (33)
2 și este distanța Mahalanobis.
=1 ( 1 )
Similar cu Extraness, scorul de omisiune este calculat după cum urmează:
′
(, | )=‖ ‖ 2
(34)
= (41)
unde { } este setul de cuvinte de conținut din a treia referință pentru imagine ‖ ‖2
, și este cuvântul încorporare pentru cuvânt . Înlocuirea costului ( , )
1
de ADM (vezi Ec. (18)) cu Eq. (34), scorul VIFIDEL este calculat = (, ) (42)
luând în considerare un scor ponderat după importanța obiectului. =1
Similaritate (WDS). ℎ ℎ̂
=1 ℎ̂ ̂
ViLBERTScore = (43)
= (, )
(, , ) (35)
( ,)
ℎ
ℎ̂ ℎ
=1
( ( || )) ViLBERTScore = (44)
=1 ) (36)
(, ,
( ( || )) + 1
ViLBERTScore ViLBERTScore
= (, , +) ( , ,)
(37) Scor ViLBERT = 2 (45)
(, , ) 2 Scor ViLBERT + Scor ViLBERT
unde ( , ) = { 1 , 2 , …, } este un set de scor de similaritate între un Unde = (ℎ 0 , …, ℎ ) și ̂ = (ℎ̂ 0 , …, ℎ̂ ) sunt contextuale
propoziția candidatului și toate regiunile de imagine, care pot fi clasate. înglobări furnizate de la ViLBERT pre-antrenat pentru referință și
se bazează pe câștigul cumulativ redus Järvelin și sentințe ale candidatului, respectiv. Rețineți că modelul ViLBERT calculează
( ,)
Kekäläinen (2002), care este folosit pentru a măsura calitatea documentului caracteristici dintr-o pereche de imagini și subtitrări încorporate.
8
Machine Translated by Google
4.1.14. LEIC (Learning to Evaluate Image Captioning) 4.1.17. LCEval (Learned Composite Metric for Caption Evaluation)
Valoarea LEIC (Cui, Yang, Veit, Huang și Belongie, 2018) este o tehnică de LCEval (Sharif, White, Bennamoun, Liu și Shah, 2019) este o măsurătoare
evaluare discriminativă care se bazează pe învățarea automată pentru a bazată pe învățare care extinde măsurarea NNEval prin încorporarea diferitelor
face distincția între subtitrările scrise de oameni și cele generate de mașini. valori calculate. Totuși, spre deosebire de NNEval, care combină toate
Acesta codifică legendele candidate și de referință (când sunt disponibile) și caracteristicile într-un vector de caracteristici, LCEval împarte caracteristicile în trei
imaginile ca vectori caracteristici, care sunt apoi utilizați ca intrare într-un subgrupe pe baza proprietăților lor lexicale, semantice și sintactice.
Caracteristicile lexicale includ scorurile BLEU, METEOR, ROUGE-L și CIDER.
clasificator softmax pentru a obține probabilitatea ca descrierea să fie generată
Caracteristicile semantice iau în considerare scorurile SPICE, WMD și MOWE.
de un om sau de o mașină, după cum urmează.
În cele din urmă, caracteristicile sintactice sunt extrase folosind Head Word Chain
(̂ , ) = (̂ este scris uman | ( ), ) (46) Matches (HWCM), care surprinde similitudinea sintactică dintre propoziții folosind
structura arborescentă a propozițiilor. Scorul final poate fi formulat folosind Ec.
unde ̂ este propoziția candidată, ( ) este contextul imaginii , care poate include (49).
legenda de referință ca parte a contextului și este un parametru învățat.
Informații suplimentare cu privire la procedurile de instruire și inferență pot fi 4.2. Valori fără referințe
găsite în lucrarea originală.
(, ,)=
4.1.16. NNEval (Metrica de evaluare bazată pe rețea neuronală) (51)
( ( , ), ( ( , ), 0))
NNEval (Sharif, White, Bennamoun și Shah, 2018) este, de asemenea, o măsurătoare
bazată pe învățare, concepută pentru a evalua sistemul de subtitrări a imaginilor. unde denotă setul de referințe de încorporare CLIP textuale și denotă media
armonică.
Acesta valorifică atât informațiile lexicale, cât și semantice, utilizând o
compoziție de valori de ieșire bine stabilite, cum ar fi BLEU, METEOR, CIDER,
SPICE și WMD. Mai degrabă folosind direct propoziții candidate și de 4.2.2. UMIC (metrică fără referință pentru subtitrări de imagini)
referință pentru a antrena metrica, NNEval utilizează un set de caracteristici UMIC (Lee, Yoon, Dernoncourt, Bui, & Jung, 2021) este o altă măsură de
compuse derivate din scorurile generate de fiecare metrică individuală. Apoi, referință liberă concepută pentru a evalua calitatea propozițiilor generate de
vectorul caracteristic este folosit pentru a alimenta o rețea neuronală de tip sistemele de subtitrări ale imaginilor. Utilizează caracteristici de imagine extrase
din UNITER (învățare UNiversal Image–TExt Representation) (Chen et al., 2020),
feed-forward, care calculează probabilitatea ca o propoziție de intrare să fie generată de om.
un model pre-antrenat pentru prezicerea alinierii dintre imagini și texte. Modelul
Ieșirea poate fi formulată după cum urmează:
este ajustat prin învățarea contrastivă pentru a face distincția între propozițiile
1
( = 1, ) = (49) de referință și subtitrările negative folosind eșantioane negative sintetice.
0+1
Scorul UMIC poate fi formulat după cum urmează:
0 șiclasei
unde reprezintă scorurile de clasă nenormalizate ( corespund 1 mașinii și,
respectiv, umanului) și = { 1 , 2 , …, } este un vector de caracteristică compus cu
(,)= ( + ), (52)
lungime fixă. Mai multe informații despre arhitectura rețelei, precum și despre [ ]
9
Machine Translated by Google
Fig. 3. Cronologie a valorilor clasificate pe sarcini: Rezumat text, Traducere automată, Similaritate document, Subtitrări imagini, Subtitrări video și Generare text.
4.2.3. EMScore (scorul bazat pe potrivire încorporare) sarcina de subtitrare, precum și cele propuse inițial pentru alte sarcini, dar
EMScore (Shi et al., 2022) este o măsurătoare de referință liberă propusă pentru folosit și pentru a raporta performanța sistemelor de descriere vizuală. Noi
evaluarea abordărilor de subtitrări video. Folosește modelul de limbaj imagine le-a clasificat în culori diferite, fiecare reprezentând o sarcină pentru care
pre-antrenat CLIP pentru a extrage înglobări video și text. A furniza au fost concepute în primul rând. De asemenea, valorile populare utilizate pentru video
o comparație cuprinzătoare între videoclip și legendă, EMScore subtitrările au fost evidențiate cu o stea pentru a sublinia faptul că majoritatea dintre ele
calculează scorurile medii de potrivire atât la nivel de granulație grosieră au fost propuși pentru o altă sarcină decât subtitrările video.
(pe baza înglobărilor globale ale videoclipului și a subtitrării candidatului) și a În primele abordări, BLEU, METEOR, ROUGE-L și CIDEr
nivelului cu granulație fină (pe baza asemănărilor de încorporare au fost angajați pentru a evalua subtitrările video (Venugopalan și colab., 2015)
între cadre și cuvinte). folosind codul disponibil în GitHub.2 Ulterior, SPICE a fost inclus în
Pentru potrivirea de încorporare cu granulație de curs, scorul este calculat bibliotecă. Este o metrică propusă în mod special pentru a evalua propoziționalul
folosind următoarea ecuație: conținut semantic din subtitrărea imaginii. De atunci, aceste cinci metrici au
10
Machine Translated by Google
masa 2
Rezumatul parametrilor de evaluare. Acronime TR, FR, NG, WE, GR, VC, NN indică, respectiv, metode bazate pe referințe,
metode de referință liberă, metrici bazate pe compararea n-grame, metrici bazate pe încorporarea cuvintelor, metrici care modelează propoziții în
un grafic semantic, metode care folosesc conținut vizual și metrici antrenate folosind o rețea neuronală. De asemenea, TK indică sarcina:
Subtitrări (I) imagini, Subtitrări (V)ideo, (O)altă sarcină.
N Metric TR FR DE NOI GR MM LN TK
abordările subtitrării video, deoarece folosesc doar informații textuale. În cu cea mai lungă subsecvență comună nu reprezintă întotdeauna suficient conținutul
De fapt, subtitrările video și imaginile sunt sarcini similare, deoarece ambele necesită vizual. Toate aceste valori bazate pe potrivirea cuvintelor cad
„traducerea” conținutului vizual într-o descriere în limbaj natural. scurt în evaluarea acestor videoclipuri. Această limitare vine de la
Cu toate acestea, diferența critică dintre ele este că subtitrărea video faptul că pun mai multă pondere pe comparațiile de potrivire a cuvintelor decât
necesită luarea în considerare a informațiilor (acțiunilor) temporale. Acea fac pe marea diversitate a expresiilor lingvistice. Performanta
de aceea, valorile care folosesc conținutul vizual al imaginilor pentru a calcula un scor evaluarea algoritmilor de subtitrare video folosind seturi de date care conțin
nu poate fi extins cu ușurință la sarcina de subtitrări video. doar una sau câteva propoziții de referință, cum ar fi ActivityNet Captions
Recent, a fost propusă o măsurătoare fără referințe numită EMScore sau seturile de date Charades, ar putea să nu fie suficient evaluate de către acestea
special pentru sarcina de subtitrări video. Utilizează o recuperare video-text metrica din cauza acestei limitări.
model care a fost pre-antrenat pe mai mult de 400 de milioane de imagini-text În ciuda faptului că a fost conceput pentru a lua în considerare conținutul semantic,
perechi. Poate măsura consistența videoclipurilor cu imagini și, în mod eficient metrica SPICE a atribuit același scor pentru propozițiile semantice corecte și greșite în
identifică „halucinații” în subtitrări. clipuri video Fig. 4.A și Fig. 4.C, și un scor mai mic în Fig. 4.B. La fel pe scurt
Un rezumat al metricilor prezentate în Fig. 3 este prezentat cu mai multe prezentat în Secțiunea 4.1.5, SPICE atribuie un scor calculând similaritatea dintre propozițiile
detalii în Tabelul 2, care compară punctele lor cheie investigate în acest sens candidate codificate și cele de referință într-o formă semantică.
5. Experimente empirice noduri, nu a putut evalua în mod adecvat acele propoziții candidate. Acest
indică faptul că SPICE nu reușește să evalueze semantica atunci când cuvintele nu sunt
similare între candidați și propozițiile de referință.
Această secțiune prezintă patru experimente empirice simple de susținut
o analiză comparativă a principalelor caracteristici și neajunsuri
5.2. Valori potențiale pentru subtitrări video
a unor metrici selectate. În primul rând, am selectat la întâmplare câteva videoclipuri
din seturi de date populare pentru subtitrări video (vezi Secțiunea 3). Apoi, doi
Scopul acestei analize este de a analiza fezabilitatea și
Pentru fiecare videoclip au fost create propoziții candidate ipotetice: (a) a
acuratețea valorilor de subtitrări propuse recent pentru imagini în videoclip
propoziție candidată incorectă semantic folosind cuvinte prezente în
sarcina de subtitrare. Mai întâi, un videoclip din setul de date ActivityNet Captions a fost
propoziții de referință și (b) o propoziție candidată corectă din punct de vedere semantic
selectat. Apoi, am creat încă cinci propoziții de referință, de acolo
cu cuvinte care nu sunt prezente în propozițiile de referință. Experimentele
a fost o singură propoziție disponibilă pentru videoclipul din setul de date. niste
sunt detaliate mai jos, precum și toate codurile și datele pentru reproducerea acestora
metricile calculează scorul folosind atât imaginea, cât și referința
experimentele vor fi disponibile în Github.3
propoziții. Pentru astfel de valori, am folosit cadrul din mijloc al videoclipului,
deoarece are mai multă legătură cu propozi iile de referin ă. Fig. 5 arată
5.1. Valori populare pentru subtitrări video
acea propoziție A candidatului a primit un scor mai mare (evidențiat cu aldine)
decât propoziția candidată B în toate valorile, în ciuda faptului că nu este adecvat
Această analiză își propune să examineze limitele metricilor populare
descriind imaginea.
folosit pentru a evalua abordările de subtitrări video. Am selectat trei videoclipuri
De asemenea, BERTScore, WEmbSim și SMURF nu reușesc să atribuie o valoare mai mare
clipuri din diferite seturi de date populare (MSVD, MSR-VTT și ActivityNet
scor la propoziția corectă, în ciuda faptului că i s-a propus să se ia în considerare
Legende) cu propoziții de referință înrudite (vezi Fig. 4).
asemănarea seman-tică folosind încorporarea cuvintelor.
Se poate observa că BLEU, METEOR și CIDEr au fost atribuite înalte
Candidatul A (propoziție corectă) a primit un scor mai mare de la TIGER,
scoruri, evidențiate cu caractere aldine, la propozițiile incorecte ale candidatului din toate videoclipurile în timp ce ambele propoziții de candidat au primit un scor similar de la ViL-BERTScore. Pentru
clipuri. ROUGE-L a atribuit un scor mai bun pentru propoziția corectă în
a extrage caracteristicile de pereche imagine-text, aceste valori sunt folosite
Fig. 4. A deoarece conține cea mai lungă subsecvență comună în comparație cu cea
un model de rețea neuronală pre-antrenată. Scorul final este apoi calculat
greșită. Cu toate acestea, după cum se vede în Fig. 4B și C, propoziția
folosind aceste caracteristici. În ciuda faptului că aceste modele au fost pre-instruite pe seturi
mari de date, ele pot fi limitate la contextul în care
3
https://github.com/bioinfolabic/survey-vidcap-metrics au fost instruiți.
11
Machine Translated by Google
Fig. 4. Exemplu de valori populare utilizate pentru a evalua videoclipuri din diferite seturi de date. Scenele video sunt din (A) MSVD (video gjVBEJGHrXk_26_38), (B) MSR-VTT (video video730) și (C) setul de date
ActivityNet Captions (video v_t1-GV2bAL4I). Au fost luate în considerare primele 10 referințe de propoziție din seturile de date originale. În coloane, B@N, R, S, M și C indică BLEU cu N-grame (N = 1, 2, 3 și 4),
ROUGE-L, SPICE, METEOR și, respectiv, CIDEr-D. Pentru mai multe informații despre seturile de date de subtitrări video, consultați Secțiunea 3.
CLIPScore a atribuit, de asemenea, un scor mai mare propoziției corecte. Este o au fost create trei propoziții incorecte din punct de vedere semantic pentru experiment.
valoare de referință gratuită care calculează scorul exclusiv pe baza conținutului Observați că propozițiile greșite (evidențiate cu un fundal roșu) au obținut
vizual. Acest lucru ar putea implica faptul că valorile care iau în considerare conținutul rezultate similare cu cele corecte (evidențiate cu un fundal verde). Mai mult, propozi ia
vizual evaluează semantica mai eficient. cu cel mai mic punctaj ''acesta este un videoclip cu un cartof și un bărbat'' conține doar
conceptele principale prezentate în videoclip (om și cartof), dar nu ia în considerare
acțiunea efectuată.
5.3. Valori specifice pentru subtitrări video
Acest fapt indică faptul că informațiile lipsă (acțiune sau obiecte) influențează
scorul metricii.
Scopul acestei analize este de a evalua în special metrica EMScore. Din câte
Având în vedere că videoclipurile pot conține informații audio și că astfel de
cunoștințele noastre, este singura măsură găsită pentru evaluarea abordărilor de date pot fi esențiale pentru a descrie un videoclip dat în mod adecvat, am selectat un
subtitrări video până în prezent. Acesta compară asemănarea unui videoclip și a unui alt videoclip din setul de date MSR-VTT pentru a analiza un astfel de scenariu, așa cum
text potențial ca intrare. Fig. 6 ilustrează un videoclip din setul de date MSR-VTT selectat se arată în Fig. 7. Șase propoziții au fost extrase din propoziții de referință ale
pentru acest experiment. Apoi, am calculat măsura de similitudine între nouă setului de date original (evidențiate cu un fundal verde). Celelalte trei propoziții
propoziții. Șase dintre ele au fost derivate din propozițiile de referință ale setului greșite din punct de vedere semantic au fost create (evidențiate cu un fundal roșu).
de date original. Alte
12
Machine Translated by Google
Fig. 5. Analiza scorurilor date prin metrici de evaluare cu două propoziții candidate. Candidatul A este o propoziție incorectă din punct de vedere semantic, deși conține cuvinte prezente în propozițiile de
referință. Candidatul B este o propoziție corectă din punct de vedere semantic, dar nu conține cuvinte în aceeași ordine cu cele prezentate în propozițiile de referință.
Fig. 7. Exemplu de scoruri de evaluare atribuite de EMScore pentru un videoclip găsit în setul de date
Fig. 6. Exemplu de scoruri de evaluare atribuite de metrica EMScore pentru un videoclip prezentat în MSR-VTT care ia în considerare audio. Propozițiile în verde sunt propoziții de referință prezentate
setul de date MSR-VTT. Propozițiile de referință prezentate în setul de date sunt în verde, în timp ce în setul de date. Propozițiile cu roșu sunt propoziții candidate incorecte din punct de vedere
cele cu roșu sunt propoziții candidate incorecte din punct de vedere semantic. Cel mai bun scor este semantic. Cel mai bun scor este evidențiat cu caractere aldine. (Pentru interpretarea referințelor la
evidențiat cu caractere aldine. (Pentru interpretarea referințelor la culoare din legenda acestei figuri, culoare din legenda acestei figuri, cititorul este trimis la versiunea web a acestui articol.)
cititorul este trimis la versiunea web a acestui articol.)
5.4. Analiză
Observați că EMScore atribuie cel mai mare scor unei propoziții incorecte
din punct de vedere semantic. Propozițiile care descriu doar părți din Pe baza celor trei evaluări experimentale prezentate anterior, am observat
conținutul vizual au obținut scoruri similare (între 0,27 și 0,29). Propoziția că majoritatea indicilor încă nu reușesc să evalueze aspectele semantice din
cu cel mai mic scor descrie un bărbat care arată mâncarea în timp ce un alt descrierile vizuale. De asemenea, metricile bazate pe încorporarea cuvintelor
bărbat (care nu este vizualizat în scenă) oferă comentarii. Un astfel de mai au spațiu pentru îmbunătățiri, având în vedere că se bazează pe
comportament evidențiază faptul că metrica EMScore nu ia în considerare corpus pe care au fost antrenate. Multe modele de încorporare a cuvintelor
informațiile audio și, prin urmare, nu ar putea potrivi pe deplin descrierea cu generează doar un vector caracteristic fix pentru fiecare cuvânt. Cu toate
informațiile vizuale. acestea, un cuvânt poate avea un înțeles semantic diferit în funcție de locul în care apare
13
Machine Translated by Google
propoziție. În plus, cuvintele lipsă din modelele de încorporare a cuvintelor pot duce În plus, SPICE calculează semantica prin măsurarea potrivirii șirurilor, ceea ce
la un scor scăzut. face ca evaluarea să fie dificilă de scalat sau adaptat la diferite limbi și domenii
Când sunt antrenate pe un set de date părtinitoare, valorile care utilizează modele (Madhyastha et al., 2019). De asemenea, eșecurile imprevizibile pot fi cauzate de
de rețele neuronale pre-antrenate pentru a extrage caracteristici vizuale și textuale probleme de analizare a propozițiilor sau de probleme în reprezentările semantice
pot suferi de degradare a performanței. Un exemplu în acest sens este prezentat în create (Feinglass & Yang, 2021).
Fig. 6, unde propoziția care începe cu „Un bărbat demonstrează cum” a obținut un În ultimii câțiva ani, au apărut multe metrici pentru evaluarea sistemelor de
scor mare. Aparent, acest lucru s-a întâmplat deoarece propoziția avea o secvență de subtitrări pentru imagini și video, prezentate în Fig. 3 și detaliate în Tabelul 2.
să producă scoruri neașteptate înalte la unele repere atunci când se utilizează cea au fost propuse pentru a aborda problema evaluării semnificației semantice dintre
mai frecventă propoziție din setul de antrenament. cuvinte sau propoziții folosind înglobarea cuvintelor. Cu toate acestea, deși
încorporarea cuvintelor poate oferi unele reprezentări semantice ale cuvintelor, ele pot
introduce părtiniri în procesul de evaluare odată ce sunt învățate folosind un anumit
În plus, în timpul experimentelor, am observat, de asemenea, că există mai multe
corpus.
seturi de date disponibile pentru evaluarea videoclipurilor și a sarcinilor de subtitrăre
Conținutul vizual al imaginilor a fost, de asemenea, luat în considerare în unele
a imaginilor cu diferite aspecte (Aafaq et al., 2019). Unele seturi de date au videoclipuri
metrici (Cui și colab., 2018; Hessel și colab., 2021; Jiang et al., 2019, 2020; Lee și colab.,
cu discontinuități temporale, cum ar fi schimbări bruște în acțiune sau aspect, care
2021, 2020) prin codificarea vizualului și date text într-un spațiu vectorial semantic
pot afecta negativ scorul valorilor fără referință, așa cum se arată în Fig. 6.
comun folosind un model pre-antrenat. SCAN (Stacked Cross Attention Neural Network)
(Lee et al., 2018), o rețea pregătită în prealabil pe setul de date MS-Coco din 2014
De asemenea, am observat că seturile de date, cum ar fi MSR-VTT și ActivityNetCap-
propus pentru problema de potrivire imagine-text, este utilizat în mod obișnuit (Jiang
tions, fac disponibile videoclipuri cu audio. În aceste cazuri, propozițiile de referință
et al., 2019, 2020).
pot lua în considerare atât audio, cât și video pentru a descrie scena video. De exemplu,
Mai mult, unele abordări iau în considerare conținutul vizual în timpul evaluării
în Fig. 4(B), propozițiile de referință „Există cineva care face reclamă la niște cizme”
prin detectarea obiectelor folosind un model de detector de obiecte pre-antrenat, de
și „O pereche de cizme de drumeție gri sunt prezentate, deoarece naratorul afirmă
exemplu, modelul Faster R-CNN (Madhyastha și colab., 2019; Wang și colab., 2021). În
că cizmele sunt cea mai importantă parte a drumețiilor ” au fost creat ținând cont
ciuda faptului că ating o corelație ridicată cu raționamentul uman, ei sunt, de
atât de informațiile vizuale, cât și de cele audio.
asemenea, foarte dependenți de modele pre-antrenate. În plus, unele dintre ele pot
Propozițiile candidate similare ar avea un punctaj scăzut de către EMScore, deoarece
trece cu vederea corectitudinea sintactică a legendelor și relevanța lor pentru
folosesc doar conținutul vizual pentru evaluare. imagine. Astfel, este recomandabil să le combinați cu alte metrici (Stefanini et al., 2023).
În cele din urmă, numărul de propoziții de referință disponibile în seturile de
date pare să influențeze calculul unor metrici, așa cum sa raportat în lucrările Măsurile învățate au apărut mai recent (Cui și colab., 2018; Sharif și colab.,
anterioare (Jiang et al., 2020; Madhyastha et al., 2019; Sharif, Nadeem et al., 2020). Aceste 2019, 2018; Wang și colab., 2021). Ei folosesc rețele neuronale antrenate în principal
constatări pot indica faptul că unele valori pot să nu obțină rezultate bune atunci pentru a distinge între subtitrările umane și cele generate de mașini. Îngrijorarea cu
când sunt utilizate în anumite seturi de date, mai ales când există puține propoziții de privire la aceste valori este că sunt „jucabile”, adică susceptibile de manipulare. Aceasta
referință asociate fiecărui videoclip.
înseamnă că pot fi folosite ca o funcție obiectivă pentru antrenarea abordărilor de
subtitrări video, obținând scoruri ridicate, generând totuși propoziții incorecte din
6. Discuție punct de vedere sintactic și/sau semantic (Gao, Galley și Li, 2019).
6.1. Limitări ale metricilor de evaluare Deși majoritatea acestor valori sunt robuste și prezintă o corelație bună cu
judecățile umane, ele produc doar un singur scor pentru a evalua calitatea subtitrărilor
Valorile tradiționale, cum ar fi BLEU, METEOR și ROUGE-L, sunt utilizate în mod generate de sistem. Cu toate acestea, o singură valoare poate să nu ofere suficiente
informații pentru a interpreta calitatea scăzută a unui sistem dat sau pentru a explica
obișnuit pentru a evalua performanța abordărilor de subtitrări pentru imagini și
erori specifice. Cu alte cuvinte, metricilor, în general, le lipsesc modalități de a oferi
videoclipuri prin intermediul unei proceduri simple și rapide. Cu toate acestea,
explicații comprehensibile de om cu privire la semnificația lor.
principala slăbiciune a acestor valori este că se bazează pe suprapunerea n-grame,
care compară o propoziție candidată cu propoziții de referință scrise de oameni.
REO este prima metrică care abordează problema interpretabilității prin calculul
Prin urmare, acestea sunt foarte dependente de modul în care apar cuvintele în
unui scor care implică trei aspecte: relevanța în ceea ce privește adevărul de bază,
propozițiile de referință pentru evaluarea unei propoziții candidate, care trebuie să
descrierea suplimentară dincolo de conținutul imaginii și informațiile de adevăr de
fie generate în aceeași ordine și folosind aceleași cuvinte prezentate în propozițiile
bază omise. În ciuda faptului că oferă un scor pentru fiecare aspect, este o măsură
de referință pentru a obține scoruri mari.
de conținut vizual care utilizează un model pre-antrenat pentru a extrage vectori de
caracteristici, dar nu prezintă o explicație clară a scorurilor.
CIDEr a fost prima măsurătoare propusă special pentru evaluarea abordărilor
Inspirat de dezavantajele prezentate în valorile utilizate pentru evaluarea
de subtitrăre a imaginilor. A introdus o nouă paradigmă care își propune să
subtitrărilor video, a fost propusă o măsurătoare de referință liberă numită
măsoare consensul judecății umane. Deși CIDEr a îmbunătățit acuratețea în
EMSCore pentru a măsura asemănarea dintre un videoclip și o propoziție candidată.
raport cu valorile existente, se bazează și pe compararea n-grame și suferă de
Este o măsurătoare de evaluare bazată pe încorporare și utilizează modelul de
aceleași probleme raportate anterior.
limbaj imagine pre-antrenat CLIP (Radford et al., 2021) pentru a obține înglobare de
În plus, nici nu ține cont de informațiile semantice conținute în propoziții.
imagini și text. Înglobările cu granulație grosieră (la nivel video) și cu granulație
fină (la nivel de cadru) sunt combinate pentru a obține caracteristicile elementelor
Datorită dependenței mari de potrivirea corectă a n-gramelor și dificultății de vizuale ale videoclipului în timp. În ciuda faptului că este promițătoare, o astfel de
a evalua semantica propozițiilor și cuvintelor prin metricile menționate mai sus, măsurătoare ia în considerare doar conținutul vizual al videoclipurilor și poate eșua
SPICE a fost conceput pentru a evalua conținutul semantic al descrierilor generate să evalueze abordările antrenate cu date multimodale (informații audio și vizuale)
automat pentru imagini. De fapt, a fost capabil să măsoare în mod satisfăcător disponibile în prezent în unele seturi de date recente. De exemplu, Fig. 4B) prezintă
semantica dintre o propoziție candidată și propozițiile de referință prin crearea câteva propoziții de referință ținând cont de discursul naratorului. Un sistem de
de reprezentări semantice bazate pe grafice, care nu sunt luate în considerare de alte subtitrări video antrenat pe un astfel de set de date cu date multimodale va genera
metrici. Cu toate acestea, această metrică este foarte dependentă de un parser propoziții similare care probabil ar avea un punctaj mai mic în timpul utilizării valorii
semantic, deoarece nu reușește să efectueze evaluarea lexicală și sintactică a EMScore. Deși EMSCore nu are nevoie de propoziții de referință, autorii recomandă
elementelor generate. utilizarea lor atunci când sunt disponibile, deoarece sunt complementare și pot duce la
propoziții. obținerea de informații.
14
Machine Translated by Google
În ciuda numărului mare de metrici raportate în literatură, niciuna dintre ele nu • Semantică: Valorile existente nu reușesc adesea să evalueze semantica
a fost adoptată pe scară largă. Multe dintre aceste valori sunt limitate la evaluarea conținutului vizual, deoarece acesta poate fi descris prin multe propoziții
sistemelor de descriere a imaginilor și nu pot fi extinse în mod satisfăcător la sarcina diferite scrise în limbaj natural. Evaluarea asemănării semantice între acele
de subtitrări video. Mai mult, utilizarea modelelor pre-antrenate pentru a extrage propoziții sau între o propoziție și conținutul vizual este o provocare. Valorile
caracteristici care au fost antrenate anterior în contexte specifice poate să nu reprezinte bazate pe referințe folosesc de obicei funcții de potrivire a cuvintelor sau de
un videoclip dintr-un alt context. Chiar dacă se folosește un model pre-antrenat încorporare a cuvintelor pentru a estima similaritatea semantică și neglijează
generic, acesta poate eșua, deoarece intrarea poate avea situații sau vocabular adesea relevanța vizuală și detaliile. Deși metricile de referință liberă au
Evaluarea subtitrărilor imaginilor și video este o sarcină complexă care implică într-un anumit context ar trebui să adopte metrici de evaluare adecvate. •
semantica și potrivirea conținutului vizual și textului. În ultimii ani, au fost propuse Extindere la alte limbi: Unele metrici, în special cele care urmăresc să
numeroase metrici de evaluare, având ca scop ocolirea dezavantajelor și provocărilor surprindă aspectele semantice ale videoclipului, folosesc caracteristici extrase din
cu care se confruntă abordările precedente. rețele neuronale antrenate pe un anumit corpus sau anumite analize de limbă.
Cu toate acestea, ele nu pot fi extinse cu ușurință în alte limbi decât engleza,
așa cum sa discutat în Secțiunea 6.2. Cercetările viitoare pot include crearea
În studiul de față, a fost realizat un sondaj privind valorile de evaluare automată
unor astfel de resurse de limbă, permițând extinderea unor valori la alte limbi
pentru subtitrările video. Am propus o taxonomie, categorizând valorile și discutând
decât engleza. Cu toate acestea, din cauza diferențelor largi de semnificații
avantajele și dezavantajele acestora. În plus, acest studiu a analizat și metricile
ale cuvintelor și expresiilor și diferențelor gramaticale din limbile moderne,
existente, subliniind principalele puncte slabe ale acestora.
nu prevedem că va apărea în curând o metrică fără referințe agnostică de
S-a observat că majoritatea acestor metrici, prezentate în Secțiunea 4, au fost
limbă.
propuse pentru a aborda deficiențele specifice ale metricii anterioare, inclusiv lipsa
evaluării semantice, propoziții de referință insuficiente, corelarea slabă cu
judecățile umane, lipsa generalizării și lipsa de explicabilitate. În special, aceste
• Seturi de date: Când există puține propoziții de referință disponibile, unele
metrici se concentrează pe obținerea unei corelații puternice cu judecățile umane,
măsuri au o performanță slabă. Prin urmare, seturile de date de înaltă
trecând cu vederea alte caracteristici de dorit, inclusiv costul de calcul, părtinirea,
calitate cu mai multe propoziții de referință sunt esențiale pentru a
consistența, sensibilitatea și ușurința de utilizare. Ca atare, sunt necesare cercetări
îmbunătăți fiabilitatea evaluării. Seturile de date MSVD și MSR-VTT, care
suplimentare pentru a dezvolta metrici care să acopere caracteristicile de dorit pentru
conțin numeroase adnotări pe videoclip, sunt cele mai frecvent utilizate în
evaluarea sistemelor de descriere video.
sarcina de descriere video. Cu toate acestea, multe dintre aceste videoclipuri au
puncte de discontinuitate în scene care pot afecta negativ performanța valorilor
Sperăm că această cercetare va oferi cercetătorilor o referință pentru a fără referințe, cum ar fi mișcarea sau schimbarea scenei. Scenariul de
înțelege dezavantajele și avantajele actuale ale valorilor existente pentru subtitrări referință ideal ar fi un set de date „standard de aur” complet (pentru un anumit
pentru imagini și videoclipuri și noi perspective pentru dezvoltarea de noi valori. domeniu) și de înaltă calitate, cu multe propoziții de referință care descriu
în mod adecvat scena video diferit. Un set de date ca acesta ar putea facilita
Pe baza analizei profunde a principalelor dezavantaje ale metricilor, avansarea de crearea de noi referințe bazate pe
ultimă generație în domeniul evaluării subtitrărilor de imagini și video va necesita
eforturi ample de cercetare în următoarele direcții: măsuri gratuite și să stabilească un standard prin oferirea unei evaluări
precise și consensuale a eficacității subtitrărilor video.
15
Machine Translated by Google
• Valori multimodale de referință gratuită: deoarece un videoclip combină atât Caglayan, O., Madhyastha, PS și Specia, L. (2020). Caz curios de metrici de evaluare a generației de limbă:
informații audio cât și vizuale, sunetul poate fi necesar pentru a comunica o poveste de avertizare. În Proc. a celei de-a 28-a conferințe internaționale de lingvistică
computațională (p. 2322–2328).
eficient conținutul videoclipului. Din câte știm, EMScore este singura măsură
Chandrasekaran, D. și Mago, V. (2021). Evoluția asemănării semantice – un sondaj.
propusă pentru evaluarea abordărilor de subtitrări video și calculează un ACM Computing Surveys, 54(2), 1–37.
scor de similaritate între un videoclip (informații vizuale capturate din cadre) și Chen, D. și Dolan, W. (2011). Colectarea de date extrem de paralele pentru evaluarea parafrazelor.
o propoziție. Cu toate acestea, un videoclip conține, dincolo de informațiile În Proc. a celei de-a 49-a reuniuni anuale a asociației pentru lingvistică computațională (p. 190–
200).
vizuale, informații audio, care pot fi esențiale pentru a descrie o scenă video.
Chen, X., Fang, H., Lin, T.-Y., Vedantam, R., Gupta, S., Dollar, P. și colab. (2015).
De exemplu, luați în considerare o scenă video a unei femei care stă pe un
Subtitrări Microsoft coco: server de colectare și evaluare a datelor. arXiv preprint arXiv:1504.00325.
scaun dând un interviu despre probleme de educație și următoarele propoziții
ale candidatului: (a) „O femeie stă pe un scaun și își mișcă mâinile” și (b) „ O Chen, Y.-C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., i colab. (2020). Uniter: Învățare universală a
femeie stă pe un scaun și vorbește despre probleme de educație''. EMScore reprezentării imagine-text. În conferința europeană privind viziunea computerizată (pp. 104–120).
oferă un scor mai mare primei propoziții candidate, chiar dacă a doua
Cui, Y., Yang, G., Veit, A., Huang, X. și Belongie, S. (2018). Învățarea evaluării subtitrării imaginilor. În
propoziție candidată descrie mai bine videoclipul dat. Studiile anterioare (Hori Proc. a conferinței IEEE privind viziunea computerizată și recunoașterea modelelor (pag. 5804–
et al., 2017; Ramanishka et al., 2016) au arătat că combinarea caracteristicilor 5812).
audio, cum ar fi MFCC, și a caracteristicilor vizuale poate îmbunătăți Denkowski, M. și Lavie, A. (2010). Alegerea evaluării potrivite pentru traducerea automată: o examinare a
performanței adnotatorului și a metricii automate în sarcinile de judecată umană. În Proc. a celei
performanța abordărilor de subtitrări video. Astfel, o potențială lucrare
de-a IX-a conferințe a asociației pentru traducere automată (p. 1–9).
viitoare ar trebui să investigheze noi metrici fără referințe capabile să
includă, pe lângă informațiile vizuale, și informații audio (când sunt Devlin, J., Chang, M., Lee, K. și Toutanova, K. (2019). BERT: Pre-instruire a transformatoarelor bidirecționale
disponibile) în evaluarea descrierilor video. profunde pentru înțelegerea limbajului. În Proc. a conferinței capitolului nord-american al asociației
pentru lingvistică computațională (pp. 4171–4186).
dos Santos, GO, Colombini, EL și Avila, S. (2022). #PraCegoVer: Un set mare de date
pentru subtitrări în portugheză. Date, 7(2), 1–27.
Feinglass, J. și Yang, Y. (2021). SMURF: Fuziune seMantic și lingvistic Understanding pentru evaluarea
Declarație de contribuție a autorului CRedit subtitrărilor prin analiza tipicității. În Actele celei de-a 59-a reuniuni anuale a asociației pentru
lingvistică computațională și a 11-a conferință internațională comună privind prelucrarea
limbajului natural (volumul 1: lucrări lungi) (p. 2250–2260).
Andrei de Souza Inácio: Conceptualizare, Metodologie, Software, Validare, Analiză Gao, J., Galley, M. și Li, L. (2019). Abordări neuronale ale inteligenței artificiale conversaționale. Fundații
formală, Investigare, Curare de date, Scriere – schiță originală, Vizualizare. Heitor și Trends in Information Retrieval, 13(2–3), 127–298.
Silvério Lopes: Conceptualizare, Redactare – schiță originală, Supraveghere, Heilbron, FC, Escorcia, V., Ghanem, B. și Niebles, JC (2015). ActivityNet: Un punct de referință video la
scară largă pentru înțelegerea activității umane. În Proc. a conferinței IEEE privind viziunea
Administrare proiecte.
computerizată și recunoașterea modelelor (pag. 961–970).
Hessel, J., Holtzman, A., Forbes, M., Le Bras, R., & Choi, Y. (2021). CLIPScore: O valoare de evaluare fără
Declarație de interese concurente referințe pentru subtitrărea imaginilor. În Proceedings of the 2021 Conference on empiric methods
in natural language processing (pp. 7514–7528).
Hori, C., Hori, T., Lee, T.-Y., Zhang, Z., Harsham, B., Hershey, JR, et al. (2017).
Autorii declară că nu au interese financiare concurente sau relații personale care
Fuziune multimodală bazată pe atenție pentru descrierea video. În Prof. al conferinței
ar fi putut părea să influențeze munca raportată în această lucrare.
internaționale IEEE privind viziunea computerizată (p. 4193–4202).
Inácio, ADS, Gutoski, M., Lazzaretti, AE și Lopes, HS (2021). OSVidCap: un cadru pentru recunoașterea și
descrierea simultană a acțiunilor concurente în videoclipuri într-un scenariu deschis. Acces IEEE, 9,
137029–137041.
Disponibilitatea datelor
Jain, V., Al-Turjman, F., Chaudhary, G., Nayar, D., Gupta, V. și Kumar, A. (2022).
Subtitrări video: o trecere în revistă a teoriei, tehnicilor și practicilor. Instrumente și aplicații
Datele vor fi puse la dispoziție la cerere. multimedia , 81(25), 35619–35653.
Järvelin, K., & Kekäläinen, J. (2002). Evaluarea acumulată bazată pe câștig a tehnicilor IR.
grantul de cercetare 311785/2019-0. evaluare fină pentru subtitrărea imaginilor. În Proc. a 10-a conferință internațională comună
privind prelucrarea limbajului natural (p. 1475–1480).
Jiang, M., Huang, Q., Zhang, L., Wang, X., Zhang, P., Gan, Z., și colab. (2020). Tigru: Legătura text la imagine
Referințe
pentru evaluarea subtitrării imaginii. În Proc. A 9-a conferință internațională comună privind
prelucrarea limbajului natural (pp. 2141–2152).
Aafaq, N., Mian, A., Liu, W., Gilani, SZ și Shah, M. (2019). Descriere video: un studiu al metodelor, seturilor Kilickaya, M., Erdem, A., Ikizler-Cinbis, N. și Erdem, E. (2017). Reevaluarea valorilor automate pentru
de date și valorilor de evaluare. ACM Computing Surveys, 52(6), 1–37. subtitrărea imaginilor. În Proc. a celei de-a XV-a conferințe a capitolului european al asociației
pentru lingvistică computațională (pp. 199–209).
Amirian, S., Rasheed, K., Taha, TR și Arabnia, HR (2020). Generare automată de subtitrări pentru imagini Krishna, R., Hata, K., Ren, F., Fei-Fei, L. și Niebles, JC (2017). Evenimente cu subtitrări dense în videoclipuri.
și videoclipuri cu învățare profundă: o revizuire concisă și o suprapunere algoritmică. Acces În Proc. a conferinței internaționale IEEE privind viziunea computerizată (p. 706–715).
IEEE, 8(1), 218386–218400.
Anderson, P., Fernando, B., Johnson, M. și Gould, S. (2016). Spice: evaluare semantică a subtitrării imaginii. Kullback, S. și Leibler, RA (1951). Despre informare și suficiență. The Annals of Mathematical Statistics,
În conferința europeană despre viziunea computerizată (pp. 382–398). 22(1), 79–86.
Laina, I., Rupprecht, C., & Navab, N. (2019). Către subtitrări de imagini nesupravegheate cu încorporare
Antonio, S., Croce, D. și Basili, R. (2019). Seturi de date la scară largă pentru subtitrări pentru imagini și multimodală partajată. În Proc. a conferinței internaționale IEEE/CVF privind viziunea computerizată
videoclipuri în italiană. Jurnalul italian de lingvistică computațională, 5(5–2), 49–60. (p. 7414–7424).
Baâzaoui, A., Barhoumi, W., Ahmed, A., & Zagrouba, E. (2018). Modelarea cunoștințelor medicale ale Lee, K.-H., Chen, X., Hua, G., Hu, H. și He, X. (2018). Atenție încrucișată stivuită pentru potrivirea imagine-
clinicianului în ceea ce privește caracteristicile de nivel medical pentru extragerea mamografiei bazate text. În Proc. a conferinței europene privind viziunea computerizată (p. 212–228).
pe conținut semantic. Expert Systems with Applications, 94, 11–20.
Banerjee, S. și Lavie, A. (2005). METEOR: O metrică automată pentru evaluarea MT cu corelație Lee, H., Yoon, S., Dernoncourt, F., Bui, T. și Jung, K. (2021). UMIC: O valoare fără referință pentru
îmbunătățită cu judecățile umane. În Proc. a atelierului ACL privind măsurile de evaluare subtitrărea imaginilor prin învățarea contrastantă. În Proc. a celei de-a 59-a reuniuni anuale a
intrinseci și extrinseci pentru traducerea automată și/sau rezumat (pag. 65–72). asociației pentru lingvistică computațională și a 11-a conferință internațională comună
privind prelucrarea limbajului natural (volumul 2: lucrări scurte) (p. 220–226).
Bin, Y., Shang, X., Peng, B., Ding, Y. și Chua, T.-S. (2021). Subtitrări video cu mai multe perspective . În Proc. Lee, H., Yoon, S., Dernoncourt, F., Kim, DS, Bui, T. și Jung, K. (2020). ViLBERTScore: Evaluarea subtitrării
a celei de-a 29-a conferințe internaționale ACM privind multimedia (p. 5110–5118). imaginii utilizând viziunea și limbajul BERT. În Proc. al primului atelier de evaluare și comparare a
sistemelor NLP (p. 34–39).
16
Machine Translated by Google
Lin, C.-Y. (2004). ROUGE: Un pachet pentru evaluarea automată a rezumatelor. În rezumatul text se Stefanini, M., Cornia, M., Baraldi, L., Cascianelli, S., Fiameni, G., & Cucchiara, R.
ramifică (p. 74–81). (2023). De la emisiune la poveste: un sondaj despre subtitrări de imagini bazate pe învățarea profundă.
Liu, M., Hu, H., Li, L., Yu, Y. și Guan, W. (2020). Generarea de subtitrări chinezești prin atenție vizuală IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(1), 539–559. http://dx.doi.org/
și modelare subiect. IEEE Transactions on Cybernetics, 52(2), 1247–1257. 10.1109/TPAMI.2022.3148210.
Vedantam, R., Lawrence Zitnick, C. și Parikh, D. (2015). Cidru: evaluarea descriere a imaginii pe bază
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., și colab. (2019). ROBERTa: O abordare de preformare de consens. În Proc. a conferinței IEEE privind viziunea computerizată și recunoașterea
BERT optimizată robust. ArXiv, arXiv:1907.11692. modelelor (pag. 4566–4575).
Liu, X., Xu, Q. și Wang, N. (2019). Un sondaj asupra imaginii bazate pe rețele neuronale profunde Venugopalan, S., Rohrbach, M., Donahue, J., Mooney, R., Darrell, T. și Saenko, K.
subtitrare. The Visual Computer, 35(3), 445–470. (2015). Secvență la secvență – video în text. În Proc. a conferinței internaționale IEEE privind
Lu, J., Batra, D., Parikh, D. și Lee, S. (2019). ViLBERT: Reprezentări viziolingvistice agnostice pentru viziunea computerizată (p. 4534–4542).
sarcini pentru sarcinile de viziune și limbaj. În Progrese în sistemele de procesare a informațiilor Wang, S., Yao, Z., Wang, R., Wu, Z. și Chen, X. (2021). FAIEr: Fidelitatea și adecvarea au asigurat
neuronale (pp. 1–11). evaluarea subtitrării imaginii. În Proc. a conferinței IEEE/CVF privind viziunea computerizată și
Madhyastha, PS, Wang, J. și Specia, L. (2019). VIFIDEL: Evaluarea fidelității vizuale a descrierilor recunoașterea modelelor (pp. 14050–14059).
imaginilor. În Proc. a celei de-a 57-a reuniuni anuale a asociației pentru lingvistică Witten, IH și Frank, E. (2005). Data minin: instrumente și tehnici practice de învățare automată (ed.
computațională (p. 6539–6550). a 2-a). Morgan Kaufmann.
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). Bleu: O metodă de evaluare automată a traducerii Xu, J., Mei, T., Yao, T. și Rui, Y. (2016). MSR-VTT: un set mare de date de descriere video pentru a legături
automate. În Proc. a celei de-a 40-a reuniuni anuale a asociației pentru lingvistică computațională între video și limbă. În Proc. a conferinței IEEE privind viziunea computerizată și recunoașterea
(p. 311–318). modelelor (pag. 5288–5296).
Perlin, HA și Lopes, HS (2015). Extragerea atributelor umane folosind o abordare a rețelei neuronale Zhang, T., Kishore, V., Wu, F., Weinberger, KQ și Artzi, Y. (2020). BERTScore: Evaluarea generării de text
convoluționale. Pattern Recognition Letters, 68, 250–259. cu BERT. În Proc. A 8-a conferință internațională privind reprezentările învățării (p. 1–43).
Phillips, PJ, Hahn, CA, Fontana, PC, Yates, AN, Greene, K., Broniatowski, D.
A., i colab. (2021). Patru principii ale inteligenței artificiale explicabile: Raport intern NISTIR 8312, Zhou, L., Xu, C. și Corso, JJ (2018). Către învățarea automată a procedurilor din videoclipuri cu
Institutul Național de Standarde și Tehnologie. instrucțiuni web. În Proc. a celei de-a 32-a conferințe AAAI privind inteligența artificială (p.
Radford, A., Kim, JW, Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., și colab. (2021). 7590–7598).
Învățarea modelelor vizuale transferabile din supravegherea limbajului natural. În Proc. a celei
de -a 38-a conferințe internaționale privind învățarea automată, Vol. 139 (p. 8748–8763).
Rafiq, M., Rafiq, G. și Choi, GS (2021). Descriere video: Seturi de date și evaluare
metrici. Acces IEEE, 9, 121665–121685. Andrei de Souza Inácio a primit diplomele de licență și master în
Ramanishka, V., Das, A., Park, DH, Venugopalan, S., Hendricks, LA, Rohrbach, M. și colab. (2016). Informatică de la Universitatea Federală din Santa Catarina (UFSC) în
Descriere video multimodală. În Proc. a celei de-a 24-a conferințe internaționale ACM despre 2013, respectiv 2016. Din 2014, este lector la Institutul Federal din Moș
Crăciun
multimedia (p. 1092–1096).
Rohrbach, A., Rohrbach, M., Qiu, W., Friedrich, A., Pinkal, M., & Schiele, B. (2014). Catarina (IFSC). În prezent urmează un doctorat. diplomă în Inginerie
Descriere video coerentă cu mai multe propoziții, cu nivel variabil de detaliu. În Proc. a celei de-a Electrică și Calculatoare la Universitatea Federală de Tehnologie –
36-a conferințe germane privind recunoașterea modelelor (p. 184–195). Paraná, PR, Brazilia. Are experiență profesională în design de
Rohrbach, A., Torabi, A., Rohrbach, M., Tandon, N., Pal, C., Larochelle, H., et al. sisteme informatice, dezvoltare web și management de proiecte IT.
(2017). Descrierea filmului. International Journal of Computer Vision, 123, 94–120. Interesele sale de cercetare includ, dar nu se limitează la, viziunea
Sharif, N., Nadeem, U., Shah, SAA, Bennamoun, M. și Liu, W. (2020). Viziunea asupra limbii: metode, computerizată, învățarea automată și extragerea datelor.
17