Sunteți pe pagina 1din 17

Machine Translated by Google

Învățare automată cu aplicații 13 (2023) 100488

Liste de conținut disponibile la ScienceDirect

Învățare automată cu aplicații

pagina de pornire a jurnalului: www.elsevier.com/locate/mlwa

Valori de evaluare pentru subtitrări video: un sondaj


Andrei de Souza Inácio a,b, , Heitor Silvério Lopes b

a Institutul Federal de Educație, Știință și Tehnologie din Santa Catarina, Gaspar, 89111-009, SC, Brazilia
b Program de absolvire în Inginerie Electrică și Informatică Industrială, Universitatea Federală de Tehnologie – Paraná, Curitiba, 80230-901, PR, Brazilia

INFORMAȚII ARTICOL ABSTRACT

Cuvinte cheie: Valorile de evaluare automată joacă un rol important în evaluarea sistemelor de subtitrări video. Valorile populare utilizate pentru evaluarea unor
Măsuri de evaluare automată
astfel de abordări se bazează pe potrivirea cuvintelor și ar putea să nu evalueze calitatea subtitrărilor generate automat din cauza ambiguității
Metrici învățate
inerente în limbajul natural. Mai mult, ele necesită multe propoziții de referință pentru un punctaj eficient. Odată cu dezvoltarea rapidă a
Subtitrări video
metodologiilor de subtitrare a imaginilor și video folosind învățarea profundă în ultimii ani, au fost propuse multe metrici pentru evaluarea
Încorporarea cuvântului
unor astfel de abordări. În acest studiu, prezentăm un sondaj al valorilor de evaluare automată pentru sarcina de subtitrări video.

Mai mult, evidențiem provocările în evaluarea subtitrărilor video și propunem o taxonomie pentru a organiza metricile de evaluare existente.
De asemenea, descriem și identificăm pe scurt avantajele și deficiențele acelor metrici și identificăm aplicațiile sau contextele în care aceste
metrici pot fi utilizate mai bine. Pentru a identifica avantajele și limitările valorilor de evaluare, le comparăm cantitativ folosind videoclipuri din
diferite seturi de date utilizate pentru sarcina de descriere video. În cele din urmă, discutăm avantajele și limitările metricilor și propunem
câteva direcții viitoare de cercetare promițătoare, cum ar fi măsurarea semantică, explicabilitatea, adaptabilitatea, extinderea la alte limbi,
limitările setului de date și metricile multimodale de referință liberă.

Cuprins

1. Introducere ................................................ .................................................. .................................................. .................................................. 3 2. Subtitrări video vs subtitrări

imagini ................................................ .................................................. .................................................. ................... 4 3. Seturi de date pentru subtitrări


video ............................... .................................................. .................................................. .................................................. .... 5 4. Indicatori de
evaluare .......................................... .................................................. .................................................. ................................................ 5
4.1. Valori bazate pe referințe .................................................. .................................................. .................................................. ........................ 6 4.1.1. BLEU (BiLingual Evaluation

Understudy)............................................ .................................................. ...................................... 6 4.1.2. METEOR (Metrica pentru evaluarea traducerii cu ordonare
explicită)........................................... ................................................. 6 4.1.3. CIDEr (Evaluare a descrierii imaginii bazată pe consens) .......................................... .................................................. .................... 7
4.1.4. ROUGE (Substudiu orientat spre reamintire pentru evaluarea generală)........................................ .................................................. .............. 7 4.1.5. SPICE (Evaluare Semantic Propositional Image
Caption Evaluation) .................................. .................................................. ............... 7 4.1.6. ADM (Distanța Mișcătorului de cuvinte) ............................................. .................................................. .................................................
7 4.1.7.

WEmbSim.................................................. .................................................. .................................................. ........................... 8 4.1.8. BERTScore (Reprezentările codificatorului bidirecțional din

Scorul Transformers) ......................................... ....................................... 8 4.1.9. SMURF (fuziunea semantică și lingvistică a înțelegerii) .................................. .................................................. ................. 8
4.1.10. VIFIDEL (Fidelitate vizuală pentru evaluarea descrierii imaginii) .................................. .................................................. ............. 9 4.1.11. TIGEr (valoarea bazată pe împământarea text-la-imagine
pentru evaluarea subtitrărilor imaginii)............................ ........................................ 9 4.1.12. REO (Relevanță, Extranețe, Omisiune)................................................ .................................................. ............................................
9 4.1.13. ViLBERTScore (Vision-and-Language BERT Scor)........................................ .................................................. ............................. 9 4.1.14. LEIC (Învățați să evaluați subtitrările
imaginilor)........................................... .................................................. ............................. 10 4.1.15. FAIEr (Fidelitate și adecvare asigurate Valoarea de evaluare a subtitrării
imaginii) ....................................... .............................................. 10 4.1.16 . NNEval (Metrica de evaluare bazată pe rețea neuronală) .......................................... .................................................. ........................
10 4.1.17. LCEval (Learned Composite Metric for Caption Evaluation) ............................................ .................................................. .............. 10 metrici fără
referințe .............................. .................................................. .................................................. .......................................... 10 4.2.1. CLIPScore (Limbaj contrastant–Scor de pre-antrenament cu
imagine) ....................................... .................................................. ............... 10

4.2.

Autor corespondent la: Institutul Federal de Educație, Știință și Tehnologie din Santa Catarina, Gaspar, 89111-009, SC, Brazilia.
Adrese de e-mail: andrei.inacio@ifsc.edu.br (AdS Inácio), hslopes@utfpr.edu.br (HS Lopes).

https://doi.org/10.1016/j.mlwa.2023.100488 Primit 22
noiembrie 2022; Primit în formă revizuită la 1 iunie 2023; Acceptat la 27 iulie 2023 Disponibil online la 11 august 2023
2666-8270/© 2023 The Author(i). Publicat de
Elsevier Ltd. Acesta este un articol cu acces deschis sub licența CC BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/4.0/).
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

4.2.2. UMIC (metrică fără referință pentru subtitrărea imaginilor)........................................... .................................................. .......................... 10 4.2.3. Scorul
EMS (Scorul bazat pe potrivire încorporarea) .......................................... .................................................. .................................. 11 4.3. Cronologia valorilor de
evaluare automată ............................................. .................................................. .................................................. 11
5. Experimente empirice.................................................. .................................................. .................................................. ...................................... 12 5.1. Valori populare pentru
subtitrări video............................................. .................................................. .................................................. ....... 12 5.2.
Valori potențiale pentru subtitrări video ................................................ .................................................. .................................................. ..... 12 Valori specifice
5.3. pentru subtitrări video....................................... .................................................. .................................................. ............. 13
5.4. Analiză................................... .................................................. .................................................. .................................................. ........ 14 6.
Discuție ............................................. .................................................. .................................................. .................................................. ............. 15 Limitări ale metricilor de
6.1. evaluare ............................... .................................................. .................................................. .................... 15 Extindere posibilă la alte
6.2. limbi ........................ .................................................. .................................................. ............................. 16 7. Concluzii și tendințe de
cercetare................ .................................................. .................................................. .................................................. .... 16 Declarație de contribuție a autorului
CRedit ........................................ .................................................. .................................................. .............. 17 Declarație de concurență de
interese.............................. .................................................. .................................................. ..................................... 17 Disponibilitatea
datelor .......... .................................................. .................................................. .................................................. ............................. 17
Mulțumiri................ .................................................. .................................................. .................................................. ........................ 17
Referințe................................ .................................................. .................................................. .................................................. ............................. 17

Măsurile tradiționale de evaluare se bazează pe suprapunerea n-grame.


1. Introducere Ele calculează, practic, asemănarea unei propoziții candidat cu un set de propoziții
de referință. Fig. 1 prezintă un exemplu simplu de evaluare folosind metricile

În ultimii ani, am asistat la o creștere exponențială a cantității de imagini și convenționale pentru a evidenția complexitatea provocării analizei automate a

videoclipuri produse și stocate de oameni și întreprinderi și puse la dispoziție pe abordărilor de subtitrări video, precum și deficiențele primare prezentate în astfel de

Internet. Înțelegerea conținutului vizual al imaginilor și videoclipurilor și descrierea metrici.

acestora în limbaj natural a atras atenția cercetătorilor în ultimii câțiva ani (Aafaq,
În primul rând, este furnizată o propoziție de referință (caseta albastră) pentru fiecare videoclip.
Mian, Liu, Gilani, & Shah, 2019; Rafiq, Rafiq, & Choi, 2021). Compararea imaginilor cu
Următorul pas este evaluarea celor două propoziții candidate ipotetice, A (caseta
videoclipurile, înțelegerea acestora din urmă este mult mai dificilă, deoarece necesită
roșie) și B (caseta verde). Prima este corectă din punct de vedere semantic, iar a doua
tehnici sofisticate pentru a procesa diversitatea aparițiilor umane și obiectelor care
este greșită. Propoziția corectă a candidatului a obținut un punctaj mai mic decât
apar în diverse medii și, de asemenea, cu interacțiuni complexe între ele în timp. O
cea incorectă, conform parametrilor menționate mai sus. Acest lucru se datorează
abordare care descrie cu acuratețe evenimentele în videoclipuri poate fi utilă în multe
faptului că au mai puține cuvinte exacte în propozițiile lor de referință.
aplicații, cum ar fi interacțiunea om-robot, indexarea video, asistența pentru
În plus, acuratețea unor astfel de măsuri este îngreunată semnificativ de numărul
persoanele cu deficiențe de vedere, înțelegerea limbajului semnelor și supravegherea
mic de fraze de referință. De fapt, propozițiile de referință cerute de aceste valori
video inteligentă, pentru a numi câteva.
ar putea să nu acopere complet conținutul vizual, deoarece sunt traduceri selective ale
videoclipului realizate de arbitri umani sau de un sistem automat (Jiang et al., 2020 ) .

Evaluarea calității unor astfel de sisteme este o sarcină complicată și subiectivă.


Spre deosebire de valorile tradiționale care necesită un set de propoziții de
Acest lucru se întâmplă deoarece subtitrările, pe lângă că sunt bine formate din punct
referință pentru evaluare, a fost propusă o măsurătoare promițătoare recentă
de vedere gramatical și fluent, trebuie să se refere la videoclip în mod corespunzător
numită EMScore (Shi, Yang, Xu, Yuan, Li, Hu și Zha, 2021) pentru a măsura similaritatea
(Stefanini et al., 2023). Evaluarea umană este standardul de aur pentru evaluarea
dintre un videoclip și propozițiile candidate. fără a folosi propozi ii de referin ă în
calității subtitrărilor. Cu toate acestea, acest lucru este posibil doar uneori, deoarece
timpul evaluării. În schimb, folosește un model de limbaj vizual pe scară largă care
această sarcină necesită multă muncă și este ineficientă (Bin, Shang, Peng, Ding
a fost antrenat în prealabil pentru a extrage caracteristici vizuale și lingvistice pentru a
și Chua, 2021).
calcula un scor bazat pe consistența videoclipului și a subtitrării. Utilizarea unui model
Pentru a evita această problemă, unele valori au apărut de-a lungul timpului
pre-antrenat reduce decalajele dintre încorporarea video și text. Cu toate acestea,
pentru evaluarea calității subtitrărilor video. Patru metrici, și anume: BiLingual
există încă un decalaj semantic semnificativ între domeniul vizual și cel al limbajului.
Evaluation Understudy (BLEU) (Papineni, Roukos, Ward și Zhu, 2002), Evaluarea descrierii
Decalajul semantic (Baâzaoui, Barhoumi, Ahmed, & Zagrouba, 2018; Perlin & Lopes, 2015),
imaginilor bazată pe consens (CIDEr)
poate fi înțeles ca „distanța” dintre informațiile de nivel scăzut.
(Vedantam, Lawrence Zitnick și Parikh, 2015), Metric for Evalua-tion of Translation with
Explicit ORdering (METEOR) (Banerjee & Lavie, 2005) și Recall-Oriented Understudy for
(pixeli, margini, forme, textură) imaginilor și semnificația lor la nivel înalt (limbaj) într-
Gisting Evaluation (ROUGE-L) (Lin, 2004 ) ), sunt cele mai frecvent utilizate pentru evaluarea
un context dat.
abordărilor de subtitrări video. Aceste valori au devenit populare din moment ce au
Unele metrici au fost dezvoltate din perspectiva procesării limbajului natural (NLP).
fost utilizate în Large Scale Movie Description Challenge (LSMDC 2015) (Rohrbach et al.,
Ele se bazează pe n-grame pentru estimarea asemănării seman-tice dintre două
2017) , iar codurile au fost lansate de Microsoft Common Objects in COntext (MS COCO)
blocuri de text. O astfel de sarcină se numește Semantic Textual Similarity (STS) și de
Evaluation Server.1 Cu toate acestea, astfel de valori sunt sensibile la suprapunerea
obicei emite un procent sau o clasare a similitudinii dintre texte (Chandrasekaran & Mago,
cuvintelor și nu reușesc să compare subtitrările care transmit aproape același sens
2021). Una dintre principalele provocări cu care se confruntă într-un astfel de scenariu
dar
este coexistența mai multor sensuri posibile pentru un cuvânt sau o frază (polisemie)
sau existența a două sau mai multe cuvinte având aceeași ortografie sau pronunție,
descrie același conținut fără cuvinte în comun. Pentru a evalua
dar semnificații și origini diferite (omonimie). De exemplu, luați în considerare
Conținutul semantic al subtitrărilor, a fost sugerat Evaluarea Semantic Propositional
propozițiile: „Omul gătește un fel de mâncare” și „Omul spăla vasul”. Aceste două
Image Caption Evaluation (SPICE) (Anderson, Fernando, Johnson și Gould, 2016) .
propoziții conțin substantivul ''farfurie'', care este un exemplu de cuvânt polisemic. În
Procesându-le într-un grafic al scenei, examinează propozițiile candidate și de
ciuda faptului că nu sunt echivalente, astfel de propoziții obțin scoruri mari la unele
referință din punctul de vedere al similitudinii lor semantice. Chiar și așa, deoarece
metrici tradiționale, deoarece au multe cuvinte în comun și au aceeași lungime. Pe de
folosește doar un analizator de dependență pentru a analiza propozițiile, ar putea fi
altă parte, propozițiile „Bărbatul gătește cina pentru familia lui” și „Bărbatul
incapabil să interpreteze informațiile gramaticale.
pregătește o masă pentru cei dragi” sunt echivalente și

1
https://github.com/tylin/coco-caption

2
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

Fig. 1. Este prezentat un exemplu de evaluare a subtitrării unui videoclip din setul de date ActivityNet Captions (5pqVrMgiMcs). BLEU1, BLEU2, BLEU3 și BLEU4 denotă metrica BLEU cu 1 gram, 2, gram, 3 grame și,
respectiv, 4 grame. Valorile tradiționale bazate pe referințe pot eșua să evalueze propozițiile candidat din cauza numărului mic de propoziții de referință.
În plus, în ciuda faptului că nu descrie scena video, propoziția candidatului „A” are mai multe cuvinte similare cu propoziția de referință decât propoziția candidată „B” și a obținut un scor mai bun decât
subtitrarea corectă „A”. Cu excepția CIDEr, care are un interval de [0, 10], toate scorurile metrice sunt scalate în intervalul [0, 1]. (Pentru interpretarea referințelor la culoare din legenda acestei figuri, cititorul este
trimis la versiunea web a acestui articol.)

ar obține un scor mai mic deoarece sunt scrise cu cuvinte diferite. seturi de date. În continuare, Secțiunea 6 discută limitările metricilor de evaluare.
În plus, valorile care se bazează pe informații vizuale pentru a calcula calitatea unei În cele din urmă, Secțiunea 7 prezintă concluziile și subliniază direcțiile viitoare
propoziții candidate se confruntă și cu dezavantaje din cauza problemei decalajului de cercetare.
semantic.
Deși unele studii de revizuire privind subtitrările video au fost publicate în 2. Subtitrări video vs subtitrări imagini
ultimii câțiva ani (Aafaq și colab., 2019; Amirian, Rasheed, Taha și Arabnia, 2020;
Jain și colab., 2022), ele compară de obicei metode similare, metrici și seturi de date Oamenii pot descrie cu ușurință conținutul vizual al imaginilor și
utilizate de abordările existente și nu țin cont de metricile de evaluare non- videoclipurilor folosind limbajul natural. Cu toate acestea, aceasta este încă o sarcină
standard. Într-un studiu recent privind subtitrările imaginilor bazate pe învățarea dificilă pentru computere. Generarea de descrieri în limbaj natural din conținut
profundă (Stefanini et al., 2023), cercetătorii au analizat valorile nestandard ca o vizual (imagini și videoclipuri) presupune rezolvarea mai multor probleme complexe,
alternativă sau o completare la valorile standard pentru o evaluare mai precisă a printre care: detectarea și clasificarea obiectelor; recunoașterea acțiunii umane;
performanței, chiar și atunci când subtitrările cu adevărul de bază nu sunt detectarea relațiilor vizuale dintre oameni și obiecte.
disponibile. în timpul etapei de inferență.
Acest referat prezinta un studiu al parametrilor de evaluare pentru sarcina de Sarcinile de subtitrări pentru imagini și videoclipuri necesită „traducere”
subtitrare video. Din câte cunoștințele noastre, acesta este primul studiu de conținutului vizual într-o secvență de cuvinte, care pot fi văzute ca sarcini similare.
revizuire aprofundat despre acest subiect. Merită remarcat faptul că două valori În loc să se ocupe de imagini cu informații structurale statice, sarcina de subtitrare
populare, CIDEr și SPICE, au fost propuse inițial pentru sarcina de subtitrăre a video trebuie să proceseze și să înțeleagă conținutul vizual prezentat într-o
imaginii. Cu toate acestea, acestea au fost utilizate frecvent pentru evaluarea secvență de cadre și să le traducă într-o secvență de cuvinte. Pentru a realiza
descrierilor video. Prin urmare, am luat în considerare și câteva valori promițătoare acest lucru, o abordare a subtitrării video trebuie să surprindă nu numai cadrele
propuse recent pentru evaluarea subtitrărilor imaginilor în acest sondaj. Acestea individuale, ci și relațiile și ordinea lor în timp. Ca urmare, abordarea trebuie să
fiind spuse, principalele contribuții ale acestui studiu sunt rezumate după cum aibă o înțelegere contextuală puternică a conținutului temporal prezentat în
urmează: videoclip. Mai mult, componenta temporală a videoclipurilor introduce un nivel
suplimentar de dificultate, deoarece necesită recunoașterea modului în care
• Se propune o taxonomie a metricilor existente; • Sunt
conținutul vizual evoluează în timp. Aceasta poate implica urmărirea obiectelor,
identificate și discutate avantajele și neajunsurile indicilor existente; • Sunt
detectarea mișcării și identificarea acțiunilor. Astfel, în comparație cu subtitrărea
sugerate aplicațiile
imaginilor, subtitrărea video este mai dificilă, deoarece necesită tehnici sofisticate
sau contextele în care aceste metrici pot fi utilizate mai bine. • Este prezentată o
pentru a face față diversității aparițiilor umane și obiectelor în diferite medii,
comparație empirică
precum și relațiile lor în schimbare în timp (Ji & Wang, 2021 ) .
între principalele metrici pentru a contrasta rezultatele acestora.

• Principalele provocări în valorile de evaluare a subtitrărilor video sunt


În zilele noastre, odată cu progresul tehnicilor de Computer Vision (CV) și
evidențiat;
Inteligența Artificială (AI), computerele pot rezolva în mod eficient multe probleme
Această lucrare este organizată după cum urmează. Secțiunea 2 prezintă din lumea reală, inclusiv clasificarea obiectelor, recunoașterea acțiunilor și
un scurt context și provocările sarcinii de subtitrări video. Secțiunea 3 prezintă segmentarea imaginilor. Cu toate acestea, un pas dincolo de simpla clasificare
cele mai populare seturi de date de referință pentru subtitrări video. În Secțiunea categorică a obiectelor și acțiunilor este traducerea informațiilor vizuale complexe
4, sunt prezentate principalele valori de evaluare. Secțiunea 5 prezintă rezultatele într-un text structurat semantic (Inácio, Gutoski, Lazzaretti și Lopes, 2021).
experimentelor empirice privind videoclipurile din subtitrări video populare

3
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

tabelul 1
Abordările timpurii propuse pentru subtitrările video au început cu
Seturi de date utilizate pentru evaluarea abordărilor de descriere video.
metode bazate pe șablon. În aceste abordări, obiectele, activitățile,
iar scenele au fost mai întâi detectate și apoi utilizate într-un șablon de propoziție (Aafaq Setul de date Domeniu #Videoclipuri #propoziții #vocabular

și colab., 2019; Liu, Xu și Wang, 2019). Deși acestea Subtitrări ActivityNet Deschis 20.000 100.000 1.348.000
Șarade Uman 9848 27.847 4144
metodele puteau genera descrieri bazate pe gramatică, au făcut-o
MSR-MTB Deschis 10.000 200.000 29.316
nu luați în considerare asocierile spațiale și temporale dintre entități.
MSVD Deschis 1970 70.028 13.010
Inspirat de dezvoltarea exponențială a tehnicilor de învățare profundă în TACoS Gătit 14.105 52.593 2000
zonele CV și NLP, cercetarea subtitrării video a apărut recent You Cook2 Gătit 2000 15.400 2600

ca subiect de cercetare fierbinte. De obicei, abordările de învățare profundă sunt în principal


concepute ca conducte de codificator-decodor. Codificatorul folosește convoluțional
rețele pentru a converti conținutul vizual de intrare într-un vector caracteristic
• MSR Video to Text (MSR-VTT) (Xu, Mei, Yao și Rui, 2016):
reprezentare. Decodorul este de obicei o memorie pe termen lung
conține 200.000 de propoziții pentru 10.000 de clipuri extrase din 7180
(LSTM), Gated Recurrent Unit (GRU) sau rețea bazată pe transformator
videoclipuri, cu o medie de 20 de propoziții diferite per clip. Toate
care scoate o secvență de cuvinte.
videoclipurile au fost adnotate de lucrătorii Amazon Mechanical Turk. Aceasta
Odată ce legendele sunt generate, un proces de evaluare este esențial
este al doilea cel mai utilizat set de date.
pentru a evalua performanța și eficacitatea sistemelor propuse
• Corpus Saarbrücken al scenelor de gătit adnotate textual
și să permită compararea lor cu alte abordări. Evaluarea umană
seturi de date (scurt: TACoS) (Rohrbach et al., 2014): conține 52.593
este adesea considerat standardul de aur, metrica ideală și cea mai de încredere
descrieri a 14.105 clipuri video despre procedurile de gătit ale oamenilor. Toate
pentru a evalua calitatea subtitrărilor. Cu toate acestea, este întotdeauna consumatoare de
timp, forță de muncă și, uneori, nu este consensuală. Astfel, evaluarea automată descrierile au fost adnotate de Amazon Mechanical
muncitori turci. Acesta oferă trei niveluri de descrieri detaliate
sunt necesare valori pentru a evalua abordările de subtitrări video.
pentru videoclipuri complexe: o propoziție pentru un eveniment complex, un scurt

3. Seturi de date pentru subtitrări video propoziție pentru un segment video și o descriere detaliată pentru fiecare
pasul procedurilor de gătit.
Măsurile de evaluare discutate în această lucrare au fost folosite pentru • YouCook2 (Zhou, Xu și Corso, 2018): conține 15.400 de propoziții

efectuează o analiză cantitativă a descrierilor video folosind seturi de date ca de clipuri video în 2000 de videoclipuri nedecupate descărcate din
repere. Prin urmare, performanța metricilor este strâns legată de YouTube, toate videoclipurile cu rețete de gătit instructive. Descrierile
calitatea, dimensiunea și diversitatea seturilor de date. Subtitrări video existente au fost furnizate de doi adnotatori umani. Până în prezent, acesta este
modelele sunt instruite pe seturi de date disponibile publicului și folosesc un hold-out cel mai mare set de date video de instruire orientat spre sarcini pentru computer
strategie de validare, în urma studiilor existente care utilizează secțiuni standard de comunitate de viziune.
instruire, validare și testare. Această abordare de formare asigură un echitament
comparație cu metodele de ultimă generație. Valorile prezentate în aceasta
4. Măsuri de evaluare
studiul poate fi folosit pentru a monitoriza performanța modelului în timpul antrenamentului și
pentru a raporta performanța la setul de testare după antrenament. Spre cele mai bune dintre noi
Această secțiune analizează în mod obișnuit valorile de evaluare automată
cunoștințe, niciun studiu din literatură nu a folosit o strategie diferită de validare, posibil
folosit pentru sarcini de subtitrări video. Mai mult, luăm în considerare și în acest sens
din cauza costurilor de calcul. Tabelul 1 prezintă
studiați unele valori care au fost propuse în mod explicit pentru subtitrărea imaginilor,
detaliile principale ale celor mai utilizate seturi de date, care pot fi clasificate
dar sunt utile și promițătoare și pentru sarcina de subtitrări video. Noi
în trei domenii: ''deschis'' (videoclipuri nespecifice); „uman” (concentrat pe
nu a inclus studii care propun metrici de evaluare pentru Natural
activități centrate pe om); și „gătit” (cu privire la gătit
Sisteme de generare a limbii (NLG), cum ar fi traducerea automată,
Activități). Exemple și analiză detaliată a seturilor de date menționate
Generare dialog, rezumare, răspunsuri la întrebări sau alte sarcini
din Tabelul 1, este în afara domeniului de aplicare al acestei lucrări, precum și lucrările în care
diferit de subtitrările pentru videoclipuri sau imagini.
fiecare măsurătoare a fost utilizată și poate fi găsită în altă parte (Aafaq et al., 2019;
De asemenea, propunem o taxonomie care caracterizează și clasifică
Amirian și colab., 2020; Jain și colab., 2022).
metrici de evaluare automată bazate pe dependența lor de referință
• Subtitrări ActivityNet (Krishna, Hata, Ren, Fei-Fei și Niebles, propoziții, domeniul și aspectele de similitudine. Un studiu de revizuire anterior
2017): conține 20.000 de videoclipuri preluate din setul de date ActivityNet a propus o taxonomie pentru valorile subtitrării imaginilor (Sharif, Nadeem,
(Heilbron, Escorcia, Ghanem, & Niebles, 2015), în care fiecare Shah, Bennamoun și Liu, 2020). Într-un astfel de studiu, valorile au fost împărțite în
videoclipul are, în medie, 3,65 propoziții localizate temporal și a două categorii: bazate pe date și proiectate manual. Bazat pe date
total de 100.000 de sentințe. Toate videoclipurile au fost adnotate de Amazon metrica implică învățarea de a măsura corespondența propoziției prin
Muncitori mecanici turci. Setul de date a fost propus pentru o abordare bazată pe date, în timp ce valorile proiectate manual folosesc un set de criterii
sarcină densă de subtitrări video, care urmărește să genereze multiple sau caracteristici realizate manual. Recent, au fost propuse multe metrici
propoziții informative și diverse pentru un videoclip care conține scurte, pentru a evalua subtitrările direct din conținutul vizual fără referință
evenimente lungi sau chiar suprapuse. propoziții. Astfel, taxonomia propusă prezentată în acest studiu diferă
• Charades (Sigurdsson et al., 2016): oferă 27.847 descrieri de la Sharif, Nadeem et al. (2020) prin luarea în considerare a unicului
din 9848 de videoclipuri adnotate de lucrătorii Amazon Mechanical Turk. caracteristici și aspecte ale valorilor mai recente care sunt raportate în
Fiecare videoclip are o durată medie de 30 s și include 15 tipuri acest studiu.
a scenelor interioare ale activităților umane din viața de zi cu zi. Este de asemenea disponibil O schiță a unei taxonomii pentru metricile examinate în această lucrare este
66.500 de intervale localizate temporal pentru 157 de clase de acțiune și prezentate în Fig. 2. Valorile sunt împărțite în două categorii principale:
41.104 etichete pentru 46 de clase de obiecte. A fost propus pentru activitate bazate pe referințe și fără referințe. Valorile bazate pe referințe oferă a
înțelegere, inclusiv clasificarea acțiunilor, localizarea și scor de similaritate între una sau mai multe propoziții de referință și o țintă
descrieri video. propoziție. Între timp, valorile fără referințe obțin similaritate între
• Microsoft Research Video Description Corpus (MSVD) (Chen și o propoziție țintă și informații vizuale (imagine sau video). Apoi, fiecare
Dolan, 2011): acesta este, posibil, cel mai utilizat set de date pentru categoria poate fi împărțită suplimentar în subcategorii învățate și realizate manual.
sarcină de subtitrăre video. Conține 70.028 de sentințe din 1970 Abordările realizate manual folosesc măsuri deterministe
clipuri video colectate de lucrătorii Amazon Mechanical Turk. Fiecare de similitudine între un candidat și propozițiile de referință, cum ar fi
videoclipul conține o activitate principală care trebuie descrisă, de obicei de durată ca scorul F sau asemănarea cosinusului. Metodele învă ate de obicei
intre 10 si 25 s. În plus, sunetul este dezactivat în toate videoclipurile necesită pregătirea unui model (rețea neuronală) pentru a prezice probabilitatea
clipuri. o legenda candidată fiind o descriere generată de oameni.

4
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

Fig. 2. Taxonomie propusă a metricilor de evaluare.

În taxonomia propusă, luăm în considerare, de asemenea, modul în care aceste


ALBASTRU = (1)
metrici codifică propozițiile pentru a calcula valorile, care pot fi împărțite în patru
.( =1 )
moduri principale:
unde, denotă lungimea propoziției candidate, este lungimea corpusului de
(a) Potrivirea cuvintelor: când se compară n-grame; (b) referință, este un factor de penalizare pentru concizie pentru a penaliza
Scenă-graf: atunci când propozițiile sunt codificate ca scenă-graf anterior propozițiile candidate mai scurte decât propozițiile de referință, sunt ponderi
la comparație; pozitive care se însumează la unu, este media geometrică a preciziilor de n-
(c) Încorporarea cuvântului: atunci când se folosește o încorporare a cuvântului pre-antrenată , la și este funcția exponențială. De obicei, este setat la
grame modificate până
pentru a codifica 4 și este setat la 1 .
propoziții; (d) Compoziția caracteristicilor: atunci când sunt luate în considerare caracteristici diferite.
4.1.2. METEOR (Metrica pentru evaluarea traducerii cu ordonare
În plus, unele valori includ și conținut vizual (concepte captate în imagini) explicită)
pentru a măsura similitudinea. Ele au fost, de asemenea, clasificate în taxonomia METEOR (Banerjee & Lavie, 2005) este, de asemenea, o metrică
propusă. propusă inițial pentru traducerea automată automată și a fost
concepută pentru a aborda slăbiciunile percepute în metrica BLEU,
4.1. Valori bazate pe referințe inclusiv: lipsa reamintirii, utilizarea gramelor de ordin superior, lipsa
potrivirii explicite a cuvintelor între propozițiile candidat și de
Seturile de date existente pentru subtitrări video constau dintr-un set referință și utilizarea medierii geometrice a -gramelor. Se creează
de videoclipuri asociate cu subtitrări în limbaj natural, scrise de obicei de
o aliniere între unigramele din propozițiile candidat și cele de
oameni, care descriu conținutul lor vizual. referință. Fiecare unigramă de la candidat poate avea zero sau o
mapare la o unigramă din propozițiile de referință. Potrivirea
Majoritatea valorilor utilizate pentru evaluarea abordărilor de subtitrări
cuvintelor METEOR acceptă variante morfologice, inclusiv rădăcină
video se bazează pe acele propoziții de referință. Astfel, având în vedere o
și sinonime. Metrica se bazează pe precizie, reamintire și medie
propoziție candidată generată de abordare, metrica evaluează propoziția
armonică și constă în crearea alinierii între unigrame din propozițiile candida
prin măsurarea asemănării acesteia cu un set de propoziții de referință
Scorul METEOR este calculat conform următoarei ecuații:
asociate cu un anumit conținut vizual.
O scurtă descriere a valorilor bazate pe referințe este prezentată = (1 ) (2)
mai jos. Mai multe detalii găsiți în documentele originale. The se calculează prin combinarea preciziei și a retragerii
folosind media armonică conform următoarei formule:
4.1.1. BLEU (BiLingual Evaluation Understudy)
= 10 (3)
BLEU (Papineni și colab., 2002) este o metodă rapidă, ieftină și +9
independentă de limbă propusă inițial pentru evaluarea automată a
unde și reprezintă Precision și Recall și sunt calculate ca și ,
traducerii automate și este folosită în mod obișnuit pentru a evalua
respectiv , , unde este numărul de unigrame care apar concomitent
abordările de subtitrări pentru imagini și video. Măsoară precizia de
atât în propozițiile candidate, cât și în propozițiile de referință, este
suprapunere a n-gramelor unei propoziții prezise cu una sau mai multe
numărul de unigrame din propoziția candidată și este numărul de
descrieri umane de referință. BLEU se bazează pe o precizie modificată de unigrame din propozi ia de referin ă.
-grame și este de obicei calculat pentru n-grame de dimensiunea 1 până la 4. O penalizare se calculează după cum urmează, pentru a ține cont de gradul
Corectitudinea gramaticală sau inteligibilitatea nu sunt luate în considerare în care unigramele corespunzătoare atât din propozițiile candidat, cât și din cele de
în mod direct. Un scor mare în această măsurătoare poate fi asociat cu un referință sunt în aceeași ordine a cuvintelor.
număr mare de referințe. Scorurile BLEU variază de la 0 la 1, dar sunt de
obicei raportate ca valoare procentuală. Un scor peste 0,30 reflectă în general (4)
= 0,5 ( )3
o propoziție de înțeles, iar peste 0,50 reflectă propoziții bune și fluente
ale candidatului (Denkowski & Lavie, 2010). BLEU se calculează după cum urmează:unde numărul total de unigrame potrivite este notat cu , în timp ce
reprezintă cel mai mic număr posibil de bucăți, care sunt grupuri
dacă > . de unigrame potrivite care apar în aceeași ordine atât în propozițiile
candidate, cât și în cele de referință.
= { 1 (1 ) dacă .

5
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

4.1.3. CIDEr (Evaluare a descrierii imaginilor pe bază de consens) Subsecvență comună), ROUGE-W (Cea mai lungă subsecvență comună
CIDEr (Vedantam et al., 2015) este prima măsurătoare care a fost în mod specific ponderată) și ROUGE-S (Skip-Bigram Co-Occurrence Statistics). The
propus pentru evaluarea abordărilor de subtitrăre a imaginilor. Acesta propune a Valoarea ROUGE-L este adesea folosită pentru a evalua subtitrările pentru imagini și videoclipuri
protocol de evaluare bazat pe consens folosind termenul Frecvență-Inversa abordari. Este o abordare bazată pe reamintire care utilizează măsura F pentru
Frecvența documentului (TF-IDF) pentru a capta frecvența fiecărui cuvânt calculați scorul, folosind suprapunerea n-grame și cea mai lungă comună
într-o propoziție candidat într-o listă de propoziții de referință. Ideea principala subsecvente intre doua afirmatii. ROUGE-L este calculat de
este de a evalua cât de bine se potrivește o propoziție candidată cu consensul urmatoarele ecuatii:
a unui set de descrieri de imagini = { 1 , 2 , …, }. Fiecare propoziție este (,)
= (10)
reprezentat ca un set de n-grame, iar un n-gram dat este un set de una ||

sau mai multe cuvinte. TF-IDF ( ) pentru fiecare n-gramă se calculează folosind:
= (,)
(11)
ℎ( ) | | | |
( )= (5)
ℎ( (1 + 2)
)( (1, ℎ ( )) )
_ == (12)
apare într-o + 2
Unde, ℎ ( ) este de câte ori o propoziție de referință
-gram ℎ ( ) este numărul ,de ori când apare un -gram într-o propoziție unde, ( , ) denotă lungimea unei subsecvențe comune cele mai lungi
candidată este vocabularul tuturor -gramelor
, de și , | | este lungimea lui , | | este lungimea și controalele ,
și este numărul tuturor imaginilor din setul de date. Termenul TF conferă importanța relativă a și et al., 2015). și este de obicei setat la 1,2 (Chen
ponderare mai mare la n-grame care prezintă o frecvență mai mare în
propoziție de referință utilizată pentru descrierea imaginii, în timp ce al doilea termen
de ( ), IDF, atenuează ponderea n-gramelor care prezintă frecvente 4.1.5. SPICE (Evaluare Semantic Propositional Image Caption Evaluation)
apariția în toate imaginile din setul de date prin împărțirea numărului de Această măsurătoare a fost concepută de Anderson și colab. (2016) pentru a aborda
imagini în care apare în oricare dintre legendele sale de referință. limitări ale parametrilor de evaluare automată existente bazate pe -
Asemănarea dintre fiecare legendă de referință și o propoziție candidat grame, cum ar fi BLEU, METEOR și CIDEr. De obicei, aceste valori
este calculată prin distanța medie cosinus a atribuiți un scor scăzut unei propoziții generate care transmite aproape același lucru
vectori TF–IDF. semnificație de referință, dar nu are cuvinte în comun.
1 () ( ) A fost propus inițial pentru sarcina de subtitrare a imaginii, dar asta
(, )= (6) este, de asemenea, folosit pentru a evalua sistemele de subtitrări video. Metrica
‖ ( )‖‖ ( )‖
codifică obiecte, atribute și relații din propoziții candidate și de referință
unde, ( ) este un vector format din toate -gramele ( ) de lungime și în reprezentări semantice bazate pe grafice ( ) și ( ),
|| ( ) || este mărimea vectorului ( ). Aceeași definiție este respectiv, prin utilizarea unui arbore de analiză a dependențelor.
folosit pentru ).
()= ( ), ( ), () (13)
( Când utilizați -grame mai lungi, este posibil să captați informații seman-
tice bogate și proprietăți gramaticale. CIDEr-ul cu multiple unde, ( ) este un set de obiecte menționate într-o propoziție , ()
lungimile de -grame pot fi calculate ca: () ( ) este mulțimea de hiper-muchii reprezentând relații între
obiecte și ( ) ( ) obiecte. este setul de atribute asociate cu
(, )= (, ) (7)
=1 În timpul analizei potrivirii între tupluri, se iau în considerare tehnicile de
unde a fost definit empiric de autor ca 1 . sinonime și de lemizare care permit potrivirea cuvintelor cu
CIDEr-D este o variantă a CIDEr și este obișnuit diferite forme de inflexiune. Tuplurile logice dintr-un grafic al scenei sunt
evaluează aplicațiile de subtitrări pentru imagini și video. Introduce o a definit funcția , la fel de:

penalizare gaus-siana bazata pe diferenta dintre candidat si referinta


( ( )) () () () (14)
lungimi de propoziție. Mai mult, un clip la -gram contează în CIDEr
se ia în considerare numărătorul. Aceste modificări au ca scop evitarea propozițiilor Fiecare tuplu poate conține unul, două sau trei elemente, reprezentând
cu scoruri mari dar cu rezultate slabe atunci când sunt judecate de oameni. The obiecte, relații și, respectiv, atribute. Calitatea subtitrării este
Scorul CIDEr-D este definit după cum urmează: calculat pe baza scorului F1 peste tupluri din candidat și
propoziții de referință și pot fi definite ca:
CIDEr D( , )= CIDEr D(, ) (8)
| ( ( )) ( ( ))|
=1 (,)=| (15)
( ( ))|
(() (2 ))2
10
CIDEr D(, )= 2 | ( ( )) ( ( ))|
(, )= (16)
(9) | ( ( ))|
( ( ), ( )). ( )
2(,)(,(,)+ )
‖ ( )‖‖ ( )‖ (,)= 1(,)= (17)
(, )
unde și = { 1 ,… , } sunt o propoziție candidată și un set de propoziții de unde, este un operator de potrivire binar care returnează tuplurile potrivite în
referință pentru o imagine , = 1 și = 4 sunt uniforme două grafice de scenă.
greutatea și ordinea n-gramelor definite empiric de autori, ( ) și
( ) indică lungimea propoziției candidate și respectiv a propoziției , 4.1.6. WMD (Distanța mutatorului de cuvinte)
de referință. Autorii au definit, de asemenea , = 6, iar pentru a se asigura că Este o măsură a distanței propusă de Kilickaya, Erdem, Ikizler-Cinbis și
Scorurile CIDEr-D sunt comparabile cu alte valori, un factor de 10 a fost Erdem (2017) pentru a calcula diferența dintre două
adăugat.
documente text. A fost inspirat de „Distanța pentru mișcarea pământului” (EMD),
angajând un solutor al „problemei transportului”.
4.1.4. ROUGE (Substudiu orientat spre reamintire pentru evaluarea generală) Această măsurătoare a urmărit să evalueze distanța semantică dintre documente.

Acest pachet, dezvoltat de Lin (2004), a vizat automatul reprezentând cuvintele ca vectori de încorporare a cuvintelor. Calculează
evaluarea rezumatelor. Este format din patru variații metrice diferite distanța minimă pe care ar trebui să o parcurgă cuvintele dintr-un document
ROUGE-N (Statistici de concomitent cu N-grame), ROUGE-L (Cel mai lung la cuvintele dintr-un alt document.

6
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

Această valoare nu a fost concepută pentru evaluarea subtitrărilor pentru


=2 (24)
imagini sau videoclipuri. Cu toate acestea, a fost folosit pentru a evalua abordările +
de subtitrare a imaginilor (Laina, Rupprecht și Navab, 2019) și, de-a lungul timpului, a avut
unde și sunt reprezentări vectoriale la nivel de simbol din și, respectiv,
a inspirat dezvoltarea altor metrici.
propoziții.
Scorul WMD rezultat reprezintă diferența sau distanța
Similar cu asemănarea cosinusului, scorul final al valorii BERTScore
între cele două documente, cu o valoare mai mică indicând mai mare
variază între -1 și 1. Valorile BERTScore mai mari indică mai bine
asemănarea și o valoare mai mare indicând o asemănare mai mică. ADM
similaritate între textul generat și textul de referință, în timp ce valori mai mici
distanța dintre documente și este definită ca:
indică o asemănare mai mică. Cu toate acestea, scorurile sunt adesea în partea superioară
sfâr itul acelui interval. Astfel, autorii sugerează utilizarea unei scale de bază
min (,)
0
pentru a crește lizibilitatea scorului, lăsând scorul final în intervalul [0,
, =1
1]. Procedura de redimensionare pentru este:

= {1, … , } (18) = (25)


=1 1
sub rezerva:
unde, este o limită inferioară empirică a BERTScore observat. Aceeași
= ′
{1, … , } trebuie aplicată procedura de redimensionare și .
=1

unde este o matrice de flux în R( × ) și 0 înseamnă cât 4.1.9. SMURF (fuziune semantică și lingvistică de înțelegere)
Word dintr-un document se deplasează la Word într-un alt document, SMURF (Feinglass & Yang, 2021) este o metrică de evaluare automată
este dimensiunea vocabularului, ( , ) = ‖ ‖2 este distanța dintre care combină un nou algoritm de evaluare semantică SPARCS (Seman-tic
cuvânt și cuvânt codificate în spațiu de încorporare -dimensional, este Proposal Alikeness Rating using Concept Similarity) și noi algoritmi de
′ evaluare a influenței SPURTS (Stochastic Process Understanding).
frecvența cuvântului care apare de ori în document, este
frecvența cuvintelor care apare de ori în document. Evaluare folosind seturi tipice) și MIMA (meta-analiză integrată în model)
atât pentru analiza la nivel de legendă, cât și la nivel de sistem. Un transformator bazat
model precum BERT sau RoBERTa (Liu, Ott et al., 2019) este utilizat pentru a extrage
4.1.7. WEmbSim
caracteristici din texte și surprind atât sintaxa, cât și morfologia
Similar cu WMD, WEmbSim (Sharif, White, Bennamoun, Liu și
text.
Shah, 2020) folosește încorporarea cuvintelor pentru a codifica cuvintele într-un spațiu
MIMA a fost propus pentru a estima tipicitatea în evaluarea a
,
de încorporare. Folosind o matrice de încorporare, fiecare propoziție este mapată sentința candidatului după cum urmează.
o reprezentare vectorială prin intermediul Mean of Word Embeddings (MOWE), ca
definită în Ec. (19) și notat cu funcția ̃(.). Apoi, distanța MIMA( , ) = 1 strat median( cap[ f scăzut( , )]) (26)
între două propoziții se calculează prin asemănarea cosinusului (cossim),
după cum urmează. f scăzut( , ) =

1 2(( , )) + ( ( , )) ( ( , )) (27)
=
̃()= (19)
,
(( , )) + ( ( , ))
Unde denotă fluxul informa ional în termeni de aten ie
|̃ . ̃|
, (20) dimensiunile ( , ), este ( , ) și distribuția lor comună ( , ),
cossim( ̃ ̃)= |̃ || ̃|
informația reciprocă normalizată, definită în Witten și Frank
(21) (2005), care este o măsură a dependenței reciproce sau a redundanței
( | ) = cossim( ̃ ( ), ̃ ( )),
între două seturi de variabile aleatoare, sunt ponderile straturilor de atenție
unde, este o regulă folosită pentru a specifica cum să combinați scorul pentru mai multe calculat prin modelul BERT distilat dintr-un vector secvență de
propoziții de referință. Autorii sugerează utilizarea combinației cuvintele simbolizate ale unei propoziții candidate (, ( , )) este entropia
funcția, deoarece arată în mod constant o performanță mai bună decât cea sau distribuției atenției ( , ) pentru a-lea dimensiune a atenției., ( ( , )) este
funcția de combinare a regulilor, ̃ (.) este o funcție care mapează un dat entropia distribuției atenției ( , )
propoziție candidată = [ 1 , ] sau o2 ,propoziție
…, de referință = pentru a-a dimensiune a atenției, ( ( , )) este entropia lui
[ 1 , 2 , …, ] într-o reprezentare vectorială caracteristică, este numărul distribuția comună a atenției ( , ) între a-a și a-a atenție
dimensiuni.
a cuvintelor dintr-o propoziție dată și este indexul celei de-a treia referințe
propoziție. MIMA servește ca bază pentru evaluarea fluenței textului de intrare,
WEmbSim a fost dezvoltat ca o metrică de evaluare automată pentru care pot fi împărțite în gramatică și stil. Gramatica depinde de
tipicitatea întregii propoziții și se calculează folosind stilul depinde .
sisteme de subtitrare a imaginilor, bazate pe măsurarea performanței la nivel de sistem
de distincția sau atipicitatea cuvintelor în mod direct
pe asemănarea semantică. Cu toate acestea, similar cu SPICE, nu ia în considerare
asociat cu descrierea imaginii. Astfel, punând accent pe stil, SPURTS
fluență și se poate lupta să facă distincția între propozițiile cu
aceleași cuvinte în ordine diferite. a fost propus pentru a evalua distinctia sau atipicitatea cuvintelor
în secvența candidată fără cuvinte stop (notate ca ). Aici,
a fost utilizat modelul RoBERTa distilat deoarece are performanțe bune în
4.1.8. BERTScore (Reprezentările codificatorului bidirecțional din Scorul afara distribuției.
Transform-ers)
BERTScore (Zhang, Kishore, Wu, Weinberger și Artzi, 2020) este SPURTS = 1 MIMA( ,) (28)
o valoare automată pentru traducerea automată și subtitrărea imaginilor
Metrica SPARCS se concentrează în principal pe semantică și este definită ca
sisteme. Utilizează modelul BERT (Devlin, Chang, Lee și Toutanova, urmează.
2019) pentru a extrage reprezentarea vectorială la nivel de simbol din
()()
propozițiile candidat și de referință. Apoi, valorile Precizie și Recall sunt | ( )|
(,)= (29)
calculat după cum urmează: ()()
( + eu [ ( ) ( ) = 0] )
| ( )|
1
= max ( ) (22) () )(
||
(, )= (30)
()()
1
= max ( ) (23) 2(,)(,)
SPARCS = 1(,)= (31)
(,)+(,)
||

7
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

Unde este setul de concepte candidat, ( ) este setul de legendă de referință, clasament în motoarele de căutare web. În mod similar, cel este Idealul
( ,)
este o funcție care mapează concepte la un set de titluri de referință și calculate pe baza propozi ă. este bazat iilor de referin
( , ,)
este frecvența documentului, care este utilizată pentru a estima caracterul tipic al pe KL Divergence (Kullback & Leibler, 1951) și măsoară distanța
concept de-a lungul propozițiilor. între cele două distribu ii. Scorul final variază de la 0 la 1, unde
În cele din urmă, metrica SMURF poate fi definită după cum urmează. un scor mai mare indică o legendă mai bună.

dacă SPARCS′< T,
4.1.12. REO (Relevanță, Extranețe, Omisiune)
SPARCS′
= { SPARCS′ +++ ℎ Metrica REO (Jiang et al., 2019) oferă o evaluare mai informativă în
comparație cu alte valori, deoarece generează scoruri de la trei
Unde = (MIMA′ , 0) este o penalizare anormală gramaticală, =
perspective diferite: Relevanță, Extranețe și Omisiune. A extrage
(SPURTS′ , 0) este o recompensă de stil și = 1,96 este o recompensă empiric
caracteristici din imagini și propoziții (referințe și candidat), REO
prag definit de autori.
folosește și modelul SCAN, care creează o semantică multimodală
spa iu. Scorul de relevanță este apoi calculat folosind asemănarea cosinusului
4.1.10. VIFIDEL (fidelitate vizuală pentru evaluarea descrierii imaginii)
(cossim) distanța dintre caracteristicile candidat și de referință, ca
VIFIDEL (Madhyastha, Wang, & Specia, 2019) a fost dezvoltat inspirat de
prezentat mai jos:
metrica ADM pentru a estima fidelitatea unui
legenda referitoare la conținutul unei imagini date. Măsoară 1
= ( , ) (38)
asemănarea dintre obiectele detectate în imagine și cuvintele din
=1
legendă generată folosind metrica WMD. În plus, poate include descrieri de
unde, este caracteristicile de context ale propoziției candidatului și de-
referință atunci când sunt disponibile pentru a îmbunătăți evaluarea.
notează fie caracteristicile imaginii, fie caracteristicile contextului extrase din referință
propoziții.

(,)=( ( , )) (32) Scorurile de extralimitare sunt calculate prin calculul distanței de similaritate
între vectorul context vertical, după cum și vectorul său de context original
unde I este o reprezentare vectorială semantică care conține normalizate
, urmează:
pungă cu etichete de categorii de obiecte pentru imaginea I și este geanta normalizată
reprezentarea cuvintelor pentru descrierea S.
= (39)
Această măsurătoare poate fi extinsă pentru a utiliza referințe de propoziție, când 2
‖‖
disponibile, pentru a evalua importanța obiectelor dintr-o imagine. Fie =
, 2 ,… , ) să fie un set de referințe umane pentru o imagine dată, A 1
1 = ( ) (40)
,
( greutatea penalizării , pentru un cuvânt (eticheta obiectului din imaginea I sau un cuvânt din a =1
sentința candidatului) se calculează astfel:
unde sunt caracteristicile contextului propoziției candidate, repre-
1 {}
( ,) trimite conținutul irelevant al adevărului la sol la ℎ regiunea imaginii,
= (33)
2 și este distanța Mahalanobis.
=1 ( 1 )
Similar cu Extraness, scorul de omisiune este calculat după cum urmează:

(, | )=‖ ‖ 2
(34)
= (41)
unde { } este setul de cuvinte de conținut din a treia referință pentru imagine ‖ ‖2
, și este cuvântul încorporare pentru cuvânt . Înlocuirea costului ( , )
1
de ADM (vezi Ec. (18)) cu Eq. (34), scorul VIFIDEL este calculat = (, ) (42)
luând în considerare un scor ponderat după importanța obiectului. =1

Unde reprezintă caracteristicile contextului vertical bazate pe ortog-


4.1.11. TIGEr (valoarea bazată pe armonizarea text-la-imagine pentru evaluarea proiec ia onală a la .
subtitrărilor de imagini)
Metrica TIGEr (Jiang et al., 2020) a fost propusă pentru evaluarea 4.1.13. ViLBERTScore (Scor BERT pentru viziune și limbaj)
sistemelor de subtitrări a imaginilor, ținând cont atât de imaginea Inspirat de performanța excelentă a tehnicilor de încorporare a
referințe de conținut și propoziții. Pentru a calcula caracteristici dintr-o imagine– cuvintelor, în special de modelul BERTScore, în multe sarcini de generare de text,
perechea de propoziții într-un spațiu semantic comun, metrica utilizează A fost propus ViLBERTScore (Lee et al., 2020) . Acesta calculează încorporarea
rețeaua neuronală de atenție încrucișată (SCAN) pre-antrenată (Lee, Chen, condiționată de imagine pentru fiecare token folosind ViLBERT (Lu, Batra,
Hua, Hu, & He, 2018), care este un model de împământare imagine-text. The Parikh, & Lee, 2019) atât din textele generate, cât și din textele de referință. Un cosinus
legendele sunt codificate într-o secvență de vectori -dimensionali și similaritate între perechea de jetoane de la candidat și referință
imaginile sunt codificate într-un set de = 36 la nivel de regiune 2048-dimensionale legenda este calculată. Procesul de potrivire lacom dintre aceste simboluri
Caracteristici. Calitatea unei propoziții candidate bazată pe un set de este exprimat prin similitudinea cosinus a înglobărilor lor. The
propoziții de referință și o imagine este apoi calculată prin combinarea a douăperechile de jetoane care se potrivesc cele mai bune sunt utilizate pentru calculul preciziei, retragerii și
sisteme metrice: Regiune Rank Similarity (RRS) și Weight Distribution Scor F1, după cum urmează.

Similaritate (WDS). ℎ ℎ̂
=1 ℎ̂ ̂
ViLBERTScore = (43)
= (, )
(, , ) (35)
( ,)

ℎ̂ ℎ
=1
( ( || )) ViLBERTScore = (44)
=1 ) (36)
(, ,
( ( || )) + 1
ViLBERTScore ViLBERTScore
= (, , +) ( , ,)
(37) Scor ViLBERT = 2 (45)
(, , ) 2 Scor ViLBERT + Scor ViLBERT
unde ( , ) = { 1 , 2 , …, } este un set de scor de similaritate între un Unde = (ℎ 0 , …, ℎ ) și ̂ = (ℎ̂ 0 , …, ℎ̂ ) sunt contextuale
propoziția candidatului și toate regiunile de imagine, care pot fi clasate. înglobări furnizate de la ViLBERT pre-antrenat pentru referință și
se bazează pe câștigul cumulativ redus Järvelin și sentințe ale candidatului, respectiv. Rețineți că modelul ViLBERT calculează
( ,)
Kekäläinen (2002), care este folosit pentru a măsura calitatea documentului caracteristici dintr-o pereche de imagini și subtitrări încorporate.

8
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

4.1.14. LEIC (Learning to Evaluate Image Captioning) 4.1.17. LCEval (Learned Composite Metric for Caption Evaluation)
Valoarea LEIC (Cui, Yang, Veit, Huang și Belongie, 2018) este o tehnică de LCEval (Sharif, White, Bennamoun, Liu și Shah, 2019) este o măsurătoare
evaluare discriminativă care se bazează pe învățarea automată pentru a bazată pe învățare care extinde măsurarea NNEval prin încorporarea diferitelor
face distincția între subtitrările scrise de oameni și cele generate de mașini. valori calculate. Totuși, spre deosebire de NNEval, care combină toate
Acesta codifică legendele candidate și de referință (când sunt disponibile) și caracteristicile într-un vector de caracteristici, LCEval împarte caracteristicile în trei

imaginile ca vectori caracteristici, care sunt apoi utilizați ca intrare într-un subgrupe pe baza proprietăților lor lexicale, semantice și sintactice.
Caracteristicile lexicale includ scorurile BLEU, METEOR, ROUGE-L și CIDER.
clasificator softmax pentru a obține probabilitatea ca descrierea să fie generată
Caracteristicile semantice iau în considerare scorurile SPICE, WMD și MOWE.
de un om sau de o mașină, după cum urmează.
În cele din urmă, caracteristicile sintactice sunt extrase folosind Head Word Chain
(̂ , ) = (̂ este scris uman | ( ), ) (46) Matches (HWCM), care surprinde similitudinea sintactică dintre propoziții folosind
structura arborescentă a propozițiilor. Scorul final poate fi formulat folosind Ec.
unde ̂ este propoziția candidată, ( ) este contextul imaginii , care poate include (49).
legenda de referință ca parte a contextului și este un parametru învățat.
Informații suplimentare cu privire la procedurile de instruire și inferență pot fi 4.2. Valori fără referințe
găsite în lucrarea originală.

Datorită limitărilor cunoscute ale metricilor existente bazate pe propoziții


de referință, în principal în ceea ce privește dificultatea obținerii mai multor
4.1.15. FAIEr (Fidelitate și adecvare asigurate pentru evaluarea subtitrării imaginii)
modalități posibile de descriere a aceluiași conținut vizual, au fost propuse
recent unele metrici fără referință. În astfel de metrici, caracteristicile vizuale
FAIEr (Wang, Yao, Wang, Wu, & Chen, 2021) este o măsurătoare bazată pe
și textuale sunt extrase folosind modele de rețele neuronale pre-antrenate
învățare care evaluează fidelitatea și caracterul adecvat al subtitrărilor generate
pentru sarcina de potrivire imagine-text. Apoi, se calculează un scor de similaritate.
de sistemele de subtitrări ale imaginilor. Folosește același analizator de grafic de
O scurtă descriere a valorilor fără referințe studiate este descrisă mai jos.
scenă folosit de metrica SPICE pentru a reprezenta propoziții ca grafice de scenă textuale.
Mai multe informații despre procesele de instruire și inferență, precum și
Pentru a crea un grafic al scenei vizuale, se folosește un detector de obiecte pentru arhitecturile următoarelor metrici pot fi găsite în originalul
a detecta și extrage caracteristicile obiectului dintr-o imagine. Fiecare obiect hârtii.
detectat este un nod grafic, iar reprezentarea la nivel de relație este codificată
folosind o rețea convoluțională grafică (GCN). Graficele scenei vizuale și de 4.2.1. CLIPScore (Limbaj contrastant–Imagine Pre-training Scor)
referință sunt fuzionate folosind un mecanism de atenție. Scorul final este Această măsurătoare a fost introdusă de Hessel, Holtzman, Forbes, Le Bras
calculat prin măsurarea similitudinii dintre două grafice scene la nivel de obiect și Choi (2021) pentru evaluarea sistemelor de subtitrări a imaginilor fără
și relație. propoziții de referință. Folosește modelul CLIP (Radford și colab., 2021) , un
model de regăsire intermodal pre-antrenat pe 400M perechi de imagini +
=1 [1, ] ( ℎ ) subtitrări, pentru a extrage caracteristici din imagini și propoziții candidate.
= (47)
Scorul final este apoi calculat prin măsurarea asemănării cosinusului dintre
caracteristici. În plus, metrica poate fi extinsă pentru a include propoziții de
=1 [1, ] ( ℎ ) referință atunci când este disponibilă. Dat și imagine cu încorporare CLIP
= (48)
vizuală și o propoziție candidată cu încorporare CLIP textuală, CLIPScore
poate fi calculat după cum urmează:
unde și sunt uniunea reprezentărilor vectoriale la nivel de obiect și la nivel de
relație calculate prin fuziunea graficelor scenei vizuale și de referință, ℎ și ℎ (,)=( ( , ), 0) (50)
sunt reprezentări vectoriale la nivel de obiect ale propoziției candidate și ale
propoziției de referință. si sunt numarul de unde a fost definit empiric de autori ca 2.5. Pentru a calcula CLIP-S la nivel de
corpus, se poate efectua media pe perechi (imagine, candidat).
în propozițiile candidat și, respectiv, de referință. Scorul final al legendei
candidatului în raport cu informațiile de referință ale sindicatului este = + .
Când sunt disponibile propoziții de referință, CLIPScore poate fi
calculat după cum urmează:

(, ,)=
4.1.16. NNEval (Metrica de evaluare bazată pe rețea neuronală) (51)
( ( , ), ( ( , ), 0))
NNEval (Sharif, White, Bennamoun și Shah, 2018) este, de asemenea, o măsurătoare
bazată pe învățare, concepută pentru a evalua sistemul de subtitrări a imaginilor. unde denotă setul de referințe de încorporare CLIP textuale și denotă media
armonică.
Acesta valorifică atât informațiile lexicale, cât și semantice, utilizând o
compoziție de valori de ieșire bine stabilite, cum ar fi BLEU, METEOR, CIDER,
SPICE și WMD. Mai degrabă folosind direct propoziții candidate și de 4.2.2. UMIC (metrică fără referință pentru subtitrări de imagini)

referință pentru a antrena metrica, NNEval utilizează un set de caracteristici UMIC (Lee, Yoon, Dernoncourt, Bui, & Jung, 2021) este o altă măsură de

compuse derivate din scorurile generate de fiecare metrică individuală. Apoi, referință liberă concepută pentru a evalua calitatea propozițiilor generate de

vectorul caracteristic este folosit pentru a alimenta o rețea neuronală de tip sistemele de subtitrări ale imaginilor. Utilizează caracteristici de imagine extrase
din UNITER (învățare UNiversal Image–TExt Representation) (Chen et al., 2020),
feed-forward, care calculează probabilitatea ca o propoziție de intrare să fie generată de om.
un model pre-antrenat pentru prezicerea alinierii dintre imagini și texte. Modelul
Ieșirea poate fi formulată după cum urmează:
este ajustat prin învățarea contrastivă pentru a face distincția între propozițiile
1
( = 1, ) = (49) de referință și subtitrările negative folosind eșantioane negative sintetice.
0+1
Scorul UMIC poate fi formulat după cum urmează:
0 șiclasei
unde reprezintă scorurile de clasă nenormalizate ( corespund 1 mașinii și,
respectiv, umanului) și = { 1 , 2 , …, } este un vector de caracteristică compus cu
(,)= ( + ), (52)
lungime fixă. Mai multe informații despre arhitectura rețelei, precum și despre [ ]

procesele de instruire și inferență pot fi găsite în lucrarea originală. Unde


[ ] este o reprezentare comună a imaginii de intrare și a legendei
de intrare calculate de UNITER și sunt parametri antrenabili.

9
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

Fig. 3. Cronologie a valorilor clasificate pe sarcini: Rezumat text, Traducere automată, Similaritate document, Subtitrări imagini, Subtitrări video și Generare text.

4.2.3. EMScore (scorul bazat pe potrivire încorporare) sarcina de subtitrare, precum și cele propuse inițial pentru alte sarcini, dar
EMScore (Shi et al., 2022) este o măsurătoare de referință liberă propusă pentru folosit și pentru a raporta performanța sistemelor de descriere vizuală. Noi
evaluarea abordărilor de subtitrări video. Folosește modelul de limbaj imagine le-a clasificat în culori diferite, fiecare reprezentând o sarcină pentru care
pre-antrenat CLIP pentru a extrage înglobări video și text. A furniza au fost concepute în primul rând. De asemenea, valorile populare utilizate pentru video
o comparație cuprinzătoare între videoclip și legendă, EMScore subtitrările au fost evidențiate cu o stea pentru a sublinia faptul că majoritatea dintre ele
calculează scorurile medii de potrivire atât la nivel de granulație grosieră au fost propuși pentru o altă sarcină decât subtitrările video.
(pe baza înglobărilor globale ale videoclipului și a subtitrării candidatului) și a În primele abordări, BLEU, METEOR, ROUGE-L și CIDEr
nivelului cu granulație fină (pe baza asemănărilor de încorporare au fost angajați pentru a evalua subtitrările video (Venugopalan și colab., 2015)
între cadre și cuvinte). folosind codul disponibil în GitHub.2 Ulterior, SPICE a fost inclus în
Pentru potrivirea de încorporare cu granulație de curs, scorul este calculat bibliotecă. Este o metrică propusă în mod special pentru a evalua propoziționalul
folosind următoarea ecuație: conținut semantic din subtitrărea imaginii. De atunci, aceste cinci metrici au

(,)= (53) devenit un fel de standard pentru raportarea stadiului tehnicii


performanța abordărilor de subtitrări video și imagini.
unde și sunt încorporarea videoclipului și a subtitrărilor, respectiv. Deoarece În 2015, metrica ADM a fost introdusă pentru sarcina de similaritate a
toate înglobările sunt normalizate folosind normalizarea L2, documentelor. Utilizează încorporarea de cuvinte pentru a calcula asemănarea dintre
asemănarea cosinusului poate fi simplificată la produsul interior. documente. În ciuda faptului că nu a fost folosit direct pentru descrierea videoclipului
Pentru potrivirea de încorporare cu granulație fină, scorul este calculat folosind sarcină, a servit drept inspirație pentru alte metrici propuse mai târziu, inclusiv
precizia (P), rechemarea (R) și scorul F1, după cum urmează: VIFIDEL, WEmbSim și BERTScore. WembSim și VIFIDEL utilizează încorporare
1 de cuvinte pre-antrenate, cum ar fi word2vec, GLOVE sau fasttext. Pe
(,)= max (54)
| | pe de altă parte, BERTScore se bazează pe modelul BERT și a fost
1 propus pentru generarea de text și subtitrarea imaginilor folosind contextualizate
(,)= max (55)
| | înglobări.
Au fost și valorile învățate, cum ar fi LEIC, NNEval și LCEval
(,)=2 (56) a propus îmbunătățirea evaluărilor la nivel de subtitrare. Atât NNEval
+
iar LCEval a prezentat problema evaluării ca sarcină de clasificare.
unde și, respectiv, sunt înglobări ale legendei și ale cadrului,
Acestea constau în antrenarea unei rețele neuronale cu feedforward multi-strat folosind
| | | este | este numărul de jetoane ale unei propoziții candidate X,
scoruri diferite ca intrare, inclusiv BLEU, CIDEr, SPICE și
numărul de cadre ale unui videoclip.
WMC, pentru a distinge între subtitrări umane și cele generate de mașini.
Scorul final se calculează prin combinarea unui scor fin și
LEIC folosește atât propozițiile de referință, cât și imaginea ca intrare pentru a antrena a
un scor cu granulație grosieră, după cum urmează:
rețea neuronală care, la rândul său, clasifică dacă o propoziție a fost scrisă
(, )+ (, )
de un om sau de o mașină. În ciuda faptului că prezintă bune corelații cu
(,)= (57)
2 judecățile umane, valorile învățate suferă de supraadaptarea la anumite particularități
Atunci când sunt disponibile propoziții de referință, ele pot fi de asemenea luate în considerare domenii și lipsă de interpretabilitate.
ca o valoare extinsă numită EMScore_ref, definită după cum urmează. O problemă importantă este dificultatea de a evalua subtitrările fără

(, , )= suficiente subtitrări de referință pentru a acoperi diversitatea vocabularului


(58) și conținut vizual. O astfel de problemă a inspirat dezvoltarea unor metrici de
(,)+2 (, )
referință liberă, inclusiv UMIC, CLIPScore și FAIEr. În astfel de metrici,
conținutul vizual al imaginilor poate fi utilizat pentru a detecta concepte, cum ar fi
unde V este un conținut video, X este propoziția candidată și X* este
ca obiecte și relația dintre ele sau calculează o asemănare
propoziție de referință. Când aveți de-a face cu mai multe propoziții de referință
măsurați între propoziții și imagini folosind rețeaua de perechi text-imagine
{ } =1, (, )= ( , )
modele.
Similar cu valorile tradiționale, noi valori bazate pe referințe
4.3. Cronologia valorilor de evaluare automată
propus pentru sarcina de subtitrare a imaginii poate fi utilizat cu ușurință pentru evaluare

Fig. 3 prezintă cronologia metricilor de evaluare menționate mai sus.


2
Cronologia prezintă valorile propuse pentru imagine sau videoclip https://github.com/tylin/coco-caption

10
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

masa 2
Rezumatul parametrilor de evaluare. Acronime TR, FR, NG, WE, GR, VC, NN indică, respectiv, metode bazate pe referințe,
metode de referință liberă, metrici bazate pe compararea n-grame, metrici bazate pe încorporarea cuvintelor, metrici care modelează propoziții în
un grafic semantic, metode care folosesc conținut vizual și metrici antrenate folosind o rețea neuronală. De asemenea, TK indică sarcina:
Subtitrări (I) imagini, Subtitrări (V)ideo, (O)altă sarcină.
N Metric TR FR DE NOI GR MM LN TK

1 ALBASTRU (Papineni et al., 2002) X X O


2 METEOR (Banerjee & Lavie, 2005) X X O
3 CIDEr (Vedantam et al., 2015) X X eu

4 RED (Lin, 2004) X X O


5 SPICE (Anderson și colab., 2016) X X eu

6 ADM (Kilickaya și colab., 2017) X X O


7 WEmbSim (Sharif, White și colab., 2020) X X eu

8 VIFIDEL (Madhyastha et al., 2019) X X eu

9 LEIC (Cui et al., 2018) X X X X eu

10 NNEval (Sharif și colab., 2018) X X X eu

11 LCEval (Sharif și colab., 2019) X X X eu

12 TIGRII (Jiang et al., 2020) X X X eu

13 REO (Jiang et al., 2019) X X X eu

14 BERTScore (Zhang et al., 2020) X X I/O


15 ViLBERTScore (Lee și colab., 2020) X X eu

16 SMURF (Feinglass și Yang, 2021) X X eu

17 CLIPScore (Hessel și colab., 2021) X X X eu

18 Scorul EMS (Shi și colab., 2022) X X X ÎN

19 FAIEr (Wang et al., 2021) X X X X eu

20 UMIC (Lee și colab., 2021) X X X X eu

abordările subtitrării video, deoarece folosesc doar informații textuale. În cu cea mai lungă subsecvență comună nu reprezintă întotdeauna suficient conținutul
De fapt, subtitrările video și imaginile sunt sarcini similare, deoarece ambele necesită vizual. Toate aceste valori bazate pe potrivirea cuvintelor cad
„traducerea” conținutului vizual într-o descriere în limbaj natural. scurt în evaluarea acestor videoclipuri. Această limitare vine de la

Cu toate acestea, diferența critică dintre ele este că subtitrărea video faptul că pun mai multă pondere pe comparațiile de potrivire a cuvintelor decât
necesită luarea în considerare a informațiilor (acțiunilor) temporale. Acea fac pe marea diversitate a expresiilor lingvistice. Performanta
de aceea, valorile care folosesc conținutul vizual al imaginilor pentru a calcula un scor evaluarea algoritmilor de subtitrare video folosind seturi de date care conțin

nu poate fi extins cu ușurință la sarcina de subtitrări video. doar una sau câteva propoziții de referință, cum ar fi ActivityNet Captions

Recent, a fost propusă o măsurătoare fără referințe numită EMScore sau seturile de date Charades, ar putea să nu fie suficient evaluate de către acestea

special pentru sarcina de subtitrări video. Utilizează o recuperare video-text metrica din cauza acestei limitări.

model care a fost pre-antrenat pe mai mult de 400 de milioane de imagini-text În ciuda faptului că a fost conceput pentru a lua în considerare conținutul semantic,

perechi. Poate măsura consistența videoclipurilor cu imagini și, în mod eficient metrica SPICE a atribuit același scor pentru propozițiile semantice corecte și greșite în

identifică „halucinații” în subtitrări. clipuri video Fig. 4.A și Fig. 4.C, și un scor mai mic în Fig. 4.B. La fel pe scurt

Un rezumat al metricilor prezentate în Fig. 3 este prezentat cu mai multe prezentat în Secțiunea 4.1.5, SPICE atribuie un scor calculând similaritatea dintre propozițiile

detalii în Tabelul 2, care compară punctele lor cheie investigate în acest sens candidate codificate și cele de referință într-o formă semantică.

studiu. reprezentarea grafică bazată pe obiecte, atribute și relații folosind


un parser arbore de dependență. În ciuda faptului că se consideră sinonim în obiect

5. Experimente empirice noduri, nu a putut evalua în mod adecvat acele propoziții candidate. Acest
indică faptul că SPICE nu reușește să evalueze semantica atunci când cuvintele nu sunt
similare între candidați și propozițiile de referință.
Această secțiune prezintă patru experimente empirice simple de susținut
o analiză comparativă a principalelor caracteristici și neajunsuri
5.2. Valori potențiale pentru subtitrări video
a unor metrici selectate. În primul rând, am selectat la întâmplare câteva videoclipuri
din seturi de date populare pentru subtitrări video (vezi Secțiunea 3). Apoi, doi
Scopul acestei analize este de a analiza fezabilitatea și
Pentru fiecare videoclip au fost create propoziții candidate ipotetice: (a) a
acuratețea valorilor de subtitrări propuse recent pentru imagini în videoclip
propoziție candidată incorectă semantic folosind cuvinte prezente în
sarcina de subtitrare. Mai întâi, un videoclip din setul de date ActivityNet Captions a fost
propoziții de referință și (b) o propoziție candidată corectă din punct de vedere semantic
selectat. Apoi, am creat încă cinci propoziții de referință, de acolo
cu cuvinte care nu sunt prezente în propozițiile de referință. Experimentele
a fost o singură propoziție disponibilă pentru videoclipul din setul de date. niste
sunt detaliate mai jos, precum și toate codurile și datele pentru reproducerea acestora
metricile calculează scorul folosind atât imaginea, cât și referința
experimentele vor fi disponibile în Github.3
propoziții. Pentru astfel de valori, am folosit cadrul din mijloc al videoclipului,
deoarece are mai multă legătură cu propozi iile de referin ă. Fig. 5 arată
5.1. Valori populare pentru subtitrări video
acea propoziție A candidatului a primit un scor mai mare (evidențiat cu aldine)
decât propoziția candidată B în toate valorile, în ciuda faptului că nu este adecvat
Această analiză își propune să examineze limitele metricilor populare
descriind imaginea.
folosit pentru a evalua abordările de subtitrări video. Am selectat trei videoclipuri
De asemenea, BERTScore, WEmbSim și SMURF nu reușesc să atribuie o valoare mai mare
clipuri din diferite seturi de date populare (MSVD, MSR-VTT și ActivityNet
scor la propoziția corectă, în ciuda faptului că i s-a propus să se ia în considerare
Legende) cu propoziții de referință înrudite (vezi Fig. 4).
asemănarea seman-tică folosind încorporarea cuvintelor.
Se poate observa că BLEU, METEOR și CIDEr au fost atribuite înalte
Candidatul A (propoziție corectă) a primit un scor mai mare de la TIGER,
scoruri, evidențiate cu caractere aldine, la propozițiile incorecte ale candidatului din toate videoclipurile în timp ce ambele propoziții de candidat au primit un scor similar de la ViL-BERTScore. Pentru
clipuri. ROUGE-L a atribuit un scor mai bun pentru propoziția corectă în
a extrage caracteristicile de pereche imagine-text, aceste valori sunt folosite
Fig. 4. A deoarece conține cea mai lungă subsecvență comună în comparație cu cea
un model de rețea neuronală pre-antrenată. Scorul final este apoi calculat
greșită. Cu toate acestea, după cum se vede în Fig. 4B și C, propoziția
folosind aceste caracteristici. În ciuda faptului că aceste modele au fost pre-instruite pe seturi
mari de date, ele pot fi limitate la contextul în care
3
https://github.com/bioinfolabic/survey-vidcap-metrics au fost instruiți.

11
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

Fig. 4. Exemplu de valori populare utilizate pentru a evalua videoclipuri din diferite seturi de date. Scenele video sunt din (A) MSVD (video gjVBEJGHrXk_26_38), (B) MSR-VTT (video video730) și (C) setul de date
ActivityNet Captions (video v_t1-GV2bAL4I). Au fost luate în considerare primele 10 referințe de propoziție din seturile de date originale. În coloane, B@N, R, S, M și C indică BLEU cu N-grame (N = 1, 2, 3 și 4),
ROUGE-L, SPICE, METEOR și, respectiv, CIDEr-D. Pentru mai multe informații despre seturile de date de subtitrări video, consultați Secțiunea 3.

CLIPScore a atribuit, de asemenea, un scor mai mare propoziției corecte. Este o au fost create trei propoziții incorecte din punct de vedere semantic pentru experiment.
valoare de referință gratuită care calculează scorul exclusiv pe baza conținutului Observați că propozițiile greșite (evidențiate cu un fundal roșu) au obținut
vizual. Acest lucru ar putea implica faptul că valorile care iau în considerare conținutul rezultate similare cu cele corecte (evidențiate cu un fundal verde). Mai mult, propozi ia
vizual evaluează semantica mai eficient. cu cel mai mic punctaj ''acesta este un videoclip cu un cartof și un bărbat'' conține doar
conceptele principale prezentate în videoclip (om și cartof), dar nu ia în considerare
acțiunea efectuată.
5.3. Valori specifice pentru subtitrări video
Acest fapt indică faptul că informațiile lipsă (acțiune sau obiecte) influențează
scorul metricii.
Scopul acestei analize este de a evalua în special metrica EMScore. Din câte
Având în vedere că videoclipurile pot conține informații audio și că astfel de
cunoștințele noastre, este singura măsură găsită pentru evaluarea abordărilor de date pot fi esențiale pentru a descrie un videoclip dat în mod adecvat, am selectat un
subtitrări video până în prezent. Acesta compară asemănarea unui videoclip și a unui alt videoclip din setul de date MSR-VTT pentru a analiza un astfel de scenariu, așa cum
text potențial ca intrare. Fig. 6 ilustrează un videoclip din setul de date MSR-VTT selectat se arată în Fig. 7. Șase propoziții au fost extrase din propoziții de referință ale
pentru acest experiment. Apoi, am calculat măsura de similitudine între nouă setului de date original (evidențiate cu un fundal verde). Celelalte trei propoziții
propoziții. Șase dintre ele au fost derivate din propozițiile de referință ale setului greșite din punct de vedere semantic au fost create (evidențiate cu un fundal roșu).
de date original. Alte

12
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

Fig. 5. Analiza scorurilor date prin metrici de evaluare cu două propoziții candidate. Candidatul A este o propoziție incorectă din punct de vedere semantic, deși conține cuvinte prezente în propozițiile de
referință. Candidatul B este o propoziție corectă din punct de vedere semantic, dar nu conține cuvinte în aceeași ordine cu cele prezentate în propozițiile de referință.

Fig. 7. Exemplu de scoruri de evaluare atribuite de EMScore pentru un videoclip găsit în setul de date
Fig. 6. Exemplu de scoruri de evaluare atribuite de metrica EMScore pentru un videoclip prezentat în MSR-VTT care ia în considerare audio. Propozițiile în verde sunt propoziții de referință prezentate
setul de date MSR-VTT. Propozițiile de referință prezentate în setul de date sunt în verde, în timp ce în setul de date. Propozițiile cu roșu sunt propoziții candidate incorecte din punct de vedere
cele cu roșu sunt propoziții candidate incorecte din punct de vedere semantic. Cel mai bun scor este semantic. Cel mai bun scor este evidențiat cu caractere aldine. (Pentru interpretarea referințelor la
evidențiat cu caractere aldine. (Pentru interpretarea referințelor la culoare din legenda acestei figuri, culoare din legenda acestei figuri, cititorul este trimis la versiunea web a acestui articol.)
cititorul este trimis la versiunea web a acestui articol.)

5.4. Analiză
Observați că EMScore atribuie cel mai mare scor unei propoziții incorecte
din punct de vedere semantic. Propozițiile care descriu doar părți din Pe baza celor trei evaluări experimentale prezentate anterior, am observat
conținutul vizual au obținut scoruri similare (între 0,27 și 0,29). Propoziția că majoritatea indicilor încă nu reușesc să evalueze aspectele semantice din
cu cel mai mic scor descrie un bărbat care arată mâncarea în timp ce un alt descrierile vizuale. De asemenea, metricile bazate pe încorporarea cuvintelor
bărbat (care nu este vizualizat în scenă) oferă comentarii. Un astfel de mai au spațiu pentru îmbunătățiri, având în vedere că se bazează pe
comportament evidențiază faptul că metrica EMScore nu ia în considerare corpus pe care au fost antrenate. Multe modele de încorporare a cuvintelor
informațiile audio și, prin urmare, nu ar putea potrivi pe deplin descrierea cu generează doar un vector caracteristic fix pentru fiecare cuvânt. Cu toate
informațiile vizuale. acestea, un cuvânt poate avea un înțeles semantic diferit în funcție de locul în care apare

13
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

propoziție. În plus, cuvintele lipsă din modelele de încorporare a cuvintelor pot duce În plus, SPICE calculează semantica prin măsurarea potrivirii șirurilor, ceea ce
la un scor scăzut. face ca evaluarea să fie dificilă de scalat sau adaptat la diferite limbi și domenii
Când sunt antrenate pe un set de date părtinitoare, valorile care utilizează modele (Madhyastha et al., 2019). De asemenea, eșecurile imprevizibile pot fi cauzate de
de rețele neuronale pre-antrenate pentru a extrage caracteristici vizuale și textuale probleme de analizare a propozițiilor sau de probleme în reprezentările semantice
pot suferi de degradare a performanței. Un exemplu în acest sens este prezentat în create (Feinglass & Yang, 2021).
Fig. 6, unde propoziția care începe cu „Un bărbat demonstrează cum” a obținut un În ultimii câțiva ani, au apărut multe metrici pentru evaluarea sistemelor de
scor mare. Aparent, acest lucru s-a întâmplat deoarece propoziția avea o secvență de subtitrări pentru imagini și video, prezentate în Fig. 3 și detaliate în Tabelul 2.

cuvinte cu o frecvență ridicată în setul de date pre-antrenat. În consecință,


Caglayan, Madhyastha și Specia (2020) au raportat, de asemenea, că unele metrici tind Motivați de metrica WMD, unele metrici, inclusiv WEembSim, VIFIDEL și BERTScore

să producă scoruri neașteptate înalte la unele repere atunci când se utilizează cea au fost propuse pentru a aborda problema evaluării semnificației semantice dintre

mai frecventă propoziție din setul de antrenament. cuvinte sau propoziții folosind înglobarea cuvintelor. Cu toate acestea, deși
încorporarea cuvintelor poate oferi unele reprezentări semantice ale cuvintelor, ele pot
introduce părtiniri în procesul de evaluare odată ce sunt învățate folosind un anumit
În plus, în timpul experimentelor, am observat, de asemenea, că există mai multe
corpus.
seturi de date disponibile pentru evaluarea videoclipurilor și a sarcinilor de subtitrăre
Conținutul vizual al imaginilor a fost, de asemenea, luat în considerare în unele
a imaginilor cu diferite aspecte (Aafaq et al., 2019). Unele seturi de date au videoclipuri
metrici (Cui și colab., 2018; Hessel și colab., 2021; Jiang et al., 2019, 2020; Lee și colab.,
cu discontinuități temporale, cum ar fi schimbări bruște în acțiune sau aspect, care
2021, 2020) prin codificarea vizualului și date text într-un spațiu vectorial semantic
pot afecta negativ scorul valorilor fără referință, așa cum se arată în Fig. 6.
comun folosind un model pre-antrenat. SCAN (Stacked Cross Attention Neural Network)
(Lee et al., 2018), o rețea pregătită în prealabil pe setul de date MS-Coco din 2014
De asemenea, am observat că seturile de date, cum ar fi MSR-VTT și ActivityNetCap-
propus pentru problema de potrivire imagine-text, este utilizat în mod obișnuit (Jiang
tions, fac disponibile videoclipuri cu audio. În aceste cazuri, propozițiile de referință
et al., 2019, 2020).
pot lua în considerare atât audio, cât și video pentru a descrie scena video. De exemplu,
Mai mult, unele abordări iau în considerare conținutul vizual în timpul evaluării
în Fig. 4(B), propozițiile de referință „Există cineva care face reclamă la niște cizme”
prin detectarea obiectelor folosind un model de detector de obiecte pre-antrenat, de
și „O pereche de cizme de drumeție gri sunt prezentate, deoarece naratorul afirmă
exemplu, modelul Faster R-CNN (Madhyastha și colab., 2019; Wang și colab., 2021). În
că cizmele sunt cea mai importantă parte a drumețiilor ” au fost creat ținând cont
ciuda faptului că ating o corelație ridicată cu raționamentul uman, ei sunt, de
atât de informațiile vizuale, cât și de cele audio.
asemenea, foarte dependenți de modele pre-antrenate. În plus, unele dintre ele pot
Propozițiile candidate similare ar avea un punctaj scăzut de către EMScore, deoarece
trece cu vederea corectitudinea sintactică a legendelor și relevanța lor pentru
folosesc doar conținutul vizual pentru evaluare. imagine. Astfel, este recomandabil să le combinați cu alte metrici (Stefanini et al., 2023).
În cele din urmă, numărul de propoziții de referință disponibile în seturile de
date pare să influențeze calculul unor metrici, așa cum sa raportat în lucrările Măsurile învățate au apărut mai recent (Cui și colab., 2018; Sharif și colab.,
anterioare (Jiang et al., 2020; Madhyastha et al., 2019; Sharif, Nadeem et al., 2020). Aceste 2019, 2018; Wang și colab., 2021). Ei folosesc rețele neuronale antrenate în principal
constatări pot indica faptul că unele valori pot să nu obțină rezultate bune atunci pentru a distinge între subtitrările umane și cele generate de mașini. Îngrijorarea cu
când sunt utilizate în anumite seturi de date, mai ales când există puține propoziții de privire la aceste valori este că sunt „jucabile”, adică susceptibile de manipulare. Aceasta
referință asociate fiecărui videoclip.
înseamnă că pot fi folosite ca o funcție obiectivă pentru antrenarea abordărilor de
subtitrări video, obținând scoruri ridicate, generând totuși propoziții incorecte din
6. Discuție punct de vedere sintactic și/sau semantic (Gao, Galley și Li, 2019).

6.1. Limitări ale metricilor de evaluare Deși majoritatea acestor valori sunt robuste și prezintă o corelație bună cu
judecățile umane, ele produc doar un singur scor pentru a evalua calitatea subtitrărilor

Valorile tradiționale, cum ar fi BLEU, METEOR și ROUGE-L, sunt utilizate în mod generate de sistem. Cu toate acestea, o singură valoare poate să nu ofere suficiente
informații pentru a interpreta calitatea scăzută a unui sistem dat sau pentru a explica
obișnuit pentru a evalua performanța abordărilor de subtitrări pentru imagini și
erori specifice. Cu alte cuvinte, metricilor, în general, le lipsesc modalități de a oferi
videoclipuri prin intermediul unei proceduri simple și rapide. Cu toate acestea,
explicații comprehensibile de om cu privire la semnificația lor.
principala slăbiciune a acestor valori este că se bazează pe suprapunerea n-grame,
care compară o propoziție candidată cu propoziții de referință scrise de oameni.
REO este prima metrică care abordează problema interpretabilității prin calculul
Prin urmare, acestea sunt foarte dependente de modul în care apar cuvintele în
unui scor care implică trei aspecte: relevanța în ceea ce privește adevărul de bază,
propozițiile de referință pentru evaluarea unei propoziții candidate, care trebuie să
descrierea suplimentară dincolo de conținutul imaginii și informațiile de adevăr de
fie generate în aceeași ordine și folosind aceleași cuvinte prezentate în propozițiile
bază omise. În ciuda faptului că oferă un scor pentru fiecare aspect, este o măsură
de referință pentru a obține scoruri mari.
de conținut vizual care utilizează un model pre-antrenat pentru a extrage vectori de
caracteristici, dar nu prezintă o explicație clară a scorurilor.
CIDEr a fost prima măsurătoare propusă special pentru evaluarea abordărilor
Inspirat de dezavantajele prezentate în valorile utilizate pentru evaluarea
de subtitrăre a imaginilor. A introdus o nouă paradigmă care își propune să
subtitrărilor video, a fost propusă o măsurătoare de referință liberă numită
măsoare consensul judecății umane. Deși CIDEr a îmbunătățit acuratețea în
EMSCore pentru a măsura asemănarea dintre un videoclip și o propoziție candidată.
raport cu valorile existente, se bazează și pe compararea n-grame și suferă de
Este o măsurătoare de evaluare bazată pe încorporare și utilizează modelul de
aceleași probleme raportate anterior.
limbaj imagine pre-antrenat CLIP (Radford et al., 2021) pentru a obține înglobare de
În plus, nici nu ține cont de informațiile semantice conținute în propoziții.
imagini și text. Înglobările cu granulație grosieră (la nivel video) și cu granulație
fină (la nivel de cadru) sunt combinate pentru a obține caracteristicile elementelor
Datorită dependenței mari de potrivirea corectă a n-gramelor și dificultății de vizuale ale videoclipului în timp. În ciuda faptului că este promițătoare, o astfel de
a evalua semantica propozițiilor și cuvintelor prin metricile menționate mai sus, măsurătoare ia în considerare doar conținutul vizual al videoclipurilor și poate eșua
SPICE a fost conceput pentru a evalua conținutul semantic al descrierilor generate să evalueze abordările antrenate cu date multimodale (informații audio și vizuale)
automat pentru imagini. De fapt, a fost capabil să măsoare în mod satisfăcător disponibile în prezent în unele seturi de date recente. De exemplu, Fig. 4B) prezintă
semantica dintre o propoziție candidată și propozițiile de referință prin crearea câteva propoziții de referință ținând cont de discursul naratorului. Un sistem de
de reprezentări semantice bazate pe grafice, care nu sunt luate în considerare de alte subtitrări video antrenat pe un astfel de set de date cu date multimodale va genera
metrici. Cu toate acestea, această metrică este foarte dependentă de un parser propoziții similare care probabil ar avea un punctaj mai mic în timpul utilizării valorii
semantic, deoarece nu reușește să efectueze evaluarea lexicală și sintactică a EMScore. Deși EMSCore nu are nevoie de propoziții de referință, autorii recomandă
elementelor generate. utilizarea lor atunci când sunt disponibile, deoarece sunt complementare și pot duce la
propoziții. obținerea de informații.

14
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

În ciuda numărului mare de metrici raportate în literatură, niciuna dintre ele nu • Semantică: Valorile existente nu reușesc adesea să evalueze semantica
a fost adoptată pe scară largă. Multe dintre aceste valori sunt limitate la evaluarea conținutului vizual, deoarece acesta poate fi descris prin multe propoziții
sistemelor de descriere a imaginilor și nu pot fi extinse în mod satisfăcător la sarcina diferite scrise în limbaj natural. Evaluarea asemănării semantice între acele
de subtitrări video. Mai mult, utilizarea modelelor pre-antrenate pentru a extrage propoziții sau între o propoziție și conținutul vizual este o provocare. Valorile
caracteristici care au fost antrenate anterior în contexte specifice poate să nu reprezinte bazate pe referințe folosesc de obicei funcții de potrivire a cuvintelor sau de
un videoclip dintr-un alt context. Chiar dacă se folosește un model pre-antrenat încorporare a cuvintelor pentru a estima similaritatea semantică și neglijează

generic, acesta poate eșua, deoarece intrarea poate avea situații sau vocabular adesea relevanța vizuală și detaliile. Deși metricile de referință liberă au

necunoscut. prezentat rezultate promițătoare în extragerea caracteristicilor și deducerea


potrivirii semantice, ele neglijează adesea structura sintactică a propozițiilor.
De asemenea, ele pot duce la o evaluare părtinitoare, deoarece folosesc modele
6.2. Posibilă extindere la alte limbi
pre-instruite și sunt limitate de contextul datelor de instruire. Sunt necesare
cercetări suplimentare pentru a găsi modalități de a evalua semantica în
Majoritatea valorilor de evaluare folosesc resurse de limba engleză, cum ar fi
scenariul computațional.
analizatorii arborelui de dependență, dicționarele sinonime sau rețelele neuronale
Mai precis, semantica conținutului vizual al videoclipurilor și semantica textelor
pre-antrenate pentru a capta informații semantice sau de sintaxă din propoziții.
care descriu conținutul video. În
Astfel de metrici depind de un astfel de aparat, ceea ce face ca extinderea lor în alte
în ambele cazuri, astfel de metrici ar trebui să măsoare în mod ideal semantica
limbi să fie dificilă sau imposibilă. Cu toate acestea, datorită simplității lor, valorile
interacțiunilor complexe dintre entități și obiecte de-a lungul timpului. •
bazate pe potrivirea n-gramelor (BLEU, METEOR, CIDEr și ROUGE) au fost folosite
Explicabilitate: valorile existente utilizate pentru a evalua abordările de subtitrări
pentru alte limbi decât engleza, cum ar fi italiana (Antonio, Croce și Basili, 2019 ) , Hindi
video oferă doar un singur scor. Comparațiile recente de ultimă generație
(Singh, Singh și Bandy-opadhyay, 2022), portugheză (dos Santos, Colombini și Avila,
raportează aceste scoruri uneori cu diferențe semnificative. De obicei, nu se
2022) și chineză (Liu, Hu, Li, Yu și Guan, 2020).
oferă nicio explicație pentru un astfel de comportament.
De fapt, un singur scor nu poate oferi o interpretare semnificativă sau o intuiție
De asemenea, valorile bazate pe încorporarea cuvintelor nu pot fi extinse cu
despre de ce și când o abordare este mai bună decât alta. În plus, deși eficiente
ușurință la alte limbi. Acestea necesită modele de încorporare a cuvintelor pregătite pentru unele sarcini, abordările bazate pe rețelele neuronale sunt „cutii negre”
în prealabil în limba țintă, care, în mod frecvent, nu sunt disponibile. cărora le lipsește trasabilitatea și transparența rezultatelor lor calculate.
Același lucru este valabil și pentru valorile fără referințe, care folosesc caracteristici Prin urmare, o măsurătoare ideală ar trebui să furnizeze, pe lângă un scor
extrase din modele de rețea pre-antrenate pentru sarcina de potrivire vizuală-cuvânt. general al sistemului, informații despre erorile făcute de sistem (de exemplu,
Deoarece nu există multe seturi de date de acest tip disponibile public pentru alte limbi, halucinații, informații lipsă, raport incorect subiect/acțiune/obiect). În acest
utilizarea unor astfel de valori este, de asemenea, limitată doar la limba engleză. context, valorile cuprinzătoare pentru om necesită explicabilitate, care ar trebui
să respecte în mod ideal principiile inteligenței artificiale explicabile propuse
Valorile bazate pe grafice de scenă, cum ar fi SPICE și FAIEr, necesită un parser de Phillips și colab.
de limbă pentru a detecta conceptele și relațiile dintre obiecte și subiecte. Această
măsurătoare a avut succes datorită progreselor semnificative obținute cu astfel de (2021). Cu siguranță, acesta este un efort provocator care va necesita cercetare
instrumente în limba engleză, de exemplu, analizatorul Stanford. Cu toate acestea, interdisciplinară.
extinderea acestor valori în alte limbi este o provocare din cauza dificultății de a găsi • Adaptabilitate: În timp ce sistemele de subtitrări generice au fost evaluate
instrumente similare în alte limbi. folosind măsurile actuale, tehnicile specifice contextului pot necesita măsurători
suplimentare. Atunci când subtitrăți fotografii medicale, de exemplu,
subtitrările generate ar trebui să ajute în mod ideal la diagnostic, iar raportul
7. Concluzii și tendințe de cercetare medical rezultat nu ar trebui să includă descrieri ale componentelor imaginii
care nu sunt relevante pentru diagnostic. Ca urmare, programele specializate

Evaluarea subtitrărilor imaginilor și video este o sarcină complexă care implică într-un anumit context ar trebui să adopte metrici de evaluare adecvate. •

semantica și potrivirea conținutului vizual și textului. În ultimii ani, au fost propuse Extindere la alte limbi: Unele metrici, în special cele care urmăresc să

numeroase metrici de evaluare, având ca scop ocolirea dezavantajelor și provocărilor surprindă aspectele semantice ale videoclipului, folosesc caracteristici extrase din

cu care se confruntă abordările precedente. rețele neuronale antrenate pe un anumit corpus sau anumite analize de limbă.
Cu toate acestea, ele nu pot fi extinse cu ușurință în alte limbi decât engleza,
așa cum sa discutat în Secțiunea 6.2. Cercetările viitoare pot include crearea
În studiul de față, a fost realizat un sondaj privind valorile de evaluare automată
unor astfel de resurse de limbă, permițând extinderea unor valori la alte limbi
pentru subtitrările video. Am propus o taxonomie, categorizând valorile și discutând
decât engleza. Cu toate acestea, din cauza diferențelor largi de semnificații
avantajele și dezavantajele acestora. În plus, acest studiu a analizat și metricile
ale cuvintelor și expresiilor și diferențelor gramaticale din limbile moderne,
existente, subliniind principalele puncte slabe ale acestora.
nu prevedem că va apărea în curând o metrică fără referințe agnostică de
S-a observat că majoritatea acestor metrici, prezentate în Secțiunea 4, au fost
limbă.
propuse pentru a aborda deficiențele specifice ale metricii anterioare, inclusiv lipsa
evaluării semantice, propoziții de referință insuficiente, corelarea slabă cu
judecățile umane, lipsa generalizării și lipsa de explicabilitate. În special, aceste
• Seturi de date: Când există puține propoziții de referință disponibile, unele
metrici se concentrează pe obținerea unei corelații puternice cu judecățile umane,
măsuri au o performanță slabă. Prin urmare, seturile de date de înaltă
trecând cu vederea alte caracteristici de dorit, inclusiv costul de calcul, părtinirea,
calitate cu mai multe propoziții de referință sunt esențiale pentru a
consistența, sensibilitatea și ușurința de utilizare. Ca atare, sunt necesare cercetări
îmbunătăți fiabilitatea evaluării. Seturile de date MSVD și MSR-VTT, care
suplimentare pentru a dezvolta metrici care să acopere caracteristicile de dorit pentru
conțin numeroase adnotări pe videoclip, sunt cele mai frecvent utilizate în
evaluarea sistemelor de descriere video.
sarcina de descriere video. Cu toate acestea, multe dintre aceste videoclipuri au
puncte de discontinuitate în scene care pot afecta negativ performanța valorilor
Sperăm că această cercetare va oferi cercetătorilor o referință pentru a fără referințe, cum ar fi mișcarea sau schimbarea scenei. Scenariul de
înțelege dezavantajele și avantajele actuale ale valorilor existente pentru subtitrări referință ideal ar fi un set de date „standard de aur” complet (pentru un anumit
pentru imagini și videoclipuri și noi perspective pentru dezvoltarea de noi valori. domeniu) și de înaltă calitate, cu multe propoziții de referință care descriu
în mod adecvat scena video diferit. Un set de date ca acesta ar putea facilita
Pe baza analizei profunde a principalelor dezavantaje ale metricilor, avansarea de crearea de noi referințe bazate pe
ultimă generație în domeniul evaluării subtitrărilor de imagini și video va necesita
eforturi ample de cercetare în următoarele direcții: măsuri gratuite și să stabilească un standard prin oferirea unei evaluări
precise și consensuale a eficacității subtitrărilor video.

15
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

• Valori multimodale de referință gratuită: deoarece un videoclip combină atât Caglayan, O., Madhyastha, PS și Specia, L. (2020). Caz curios de metrici de evaluare a generației de limbă:

informații audio cât și vizuale, sunetul poate fi necesar pentru a comunica o poveste de avertizare. În Proc. a celei de-a 28-a conferințe internaționale de lingvistică
computațională (p. 2322–2328).
eficient conținutul videoclipului. Din câte știm, EMScore este singura măsură
Chandrasekaran, D. și Mago, V. (2021). Evoluția asemănării semantice – un sondaj.
propusă pentru evaluarea abordărilor de subtitrări video și calculează un ACM Computing Surveys, 54(2), 1–37.
scor de similaritate între un videoclip (informații vizuale capturate din cadre) și Chen, D. și Dolan, W. (2011). Colectarea de date extrem de paralele pentru evaluarea parafrazelor.
o propoziție. Cu toate acestea, un videoclip conține, dincolo de informațiile În Proc. a celei de-a 49-a reuniuni anuale a asociației pentru lingvistică computațională (p. 190–
200).
vizuale, informații audio, care pot fi esențiale pentru a descrie o scenă video.
Chen, X., Fang, H., Lin, T.-Y., Vedantam, R., Gupta, S., Dollar, P. și colab. (2015).
De exemplu, luați în considerare o scenă video a unei femei care stă pe un
Subtitrări Microsoft coco: server de colectare și evaluare a datelor. arXiv preprint arXiv:1504.00325.
scaun dând un interviu despre probleme de educație și următoarele propoziții
ale candidatului: (a) „O femeie stă pe un scaun și își mișcă mâinile” și (b) „ O Chen, Y.-C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., i colab. (2020). Uniter: Învățare universală a

femeie stă pe un scaun și vorbește despre probleme de educație''. EMScore reprezentării imagine-text. În conferința europeană privind viziunea computerizată (pp. 104–120).

oferă un scor mai mare primei propoziții candidate, chiar dacă a doua
Cui, Y., Yang, G., Veit, A., Huang, X. și Belongie, S. (2018). Învățarea evaluării subtitrării imaginilor. În
propoziție candidată descrie mai bine videoclipul dat. Studiile anterioare (Hori Proc. a conferinței IEEE privind viziunea computerizată și recunoașterea modelelor (pag. 5804–
et al., 2017; Ramanishka et al., 2016) au arătat că combinarea caracteristicilor 5812).

audio, cum ar fi MFCC, și a caracteristicilor vizuale poate îmbunătăți Denkowski, M. și Lavie, A. (2010). Alegerea evaluării potrivite pentru traducerea automată: o examinare a
performanței adnotatorului și a metricii automate în sarcinile de judecată umană. În Proc. a celei
performanța abordărilor de subtitrări video. Astfel, o potențială lucrare
de-a IX-a conferințe a asociației pentru traducere automată (p. 1–9).
viitoare ar trebui să investigheze noi metrici fără referințe capabile să
includă, pe lângă informațiile vizuale, și informații audio (când sunt Devlin, J., Chang, M., Lee, K. și Toutanova, K. (2019). BERT: Pre-instruire a transformatoarelor bidirecționale
disponibile) în evaluarea descrierilor video. profunde pentru înțelegerea limbajului. În Proc. a conferinței capitolului nord-american al asociației
pentru lingvistică computațională (pp. 4171–4186).

dos Santos, GO, Colombini, EL și Avila, S. (2022). #PraCegoVer: Un set mare de date
pentru subtitrări în portugheză. Date, 7(2), 1–27.
Feinglass, J. și Yang, Y. (2021). SMURF: Fuziune seMantic și lingvistic Understanding pentru evaluarea

Declarație de contribuție a autorului CRedit subtitrărilor prin analiza tipicității. În Actele celei de-a 59-a reuniuni anuale a asociației pentru
lingvistică computațională și a 11-a conferință internațională comună privind prelucrarea
limbajului natural (volumul 1: lucrări lungi) (p. 2250–2260).
Andrei de Souza Inácio: Conceptualizare, Metodologie, Software, Validare, Analiză Gao, J., Galley, M. și Li, L. (2019). Abordări neuronale ale inteligenței artificiale conversaționale. Fundații
formală, Investigare, Curare de date, Scriere – schiță originală, Vizualizare. Heitor și Trends in Information Retrieval, 13(2–3), 127–298.
Silvério Lopes: Conceptualizare, Redactare – schiță originală, Supraveghere, Heilbron, FC, Escorcia, V., Ghanem, B. și Niebles, JC (2015). ActivityNet: Un punct de referință video la
scară largă pentru înțelegerea activității umane. În Proc. a conferinței IEEE privind viziunea
Administrare proiecte.
computerizată și recunoașterea modelelor (pag. 961–970).
Hessel, J., Holtzman, A., Forbes, M., Le Bras, R., & Choi, Y. (2021). CLIPScore: O valoare de evaluare fără
Declarație de interese concurente referințe pentru subtitrărea imaginilor. În Proceedings of the 2021 Conference on empiric methods
in natural language processing (pp. 7514–7528).
Hori, C., Hori, T., Lee, T.-Y., Zhang, Z., Harsham, B., Hershey, JR, et al. (2017).
Autorii declară că nu au interese financiare concurente sau relații personale care
Fuziune multimodală bazată pe atenție pentru descrierea video. În Prof. al conferinței
ar fi putut părea să influențeze munca raportată în această lucrare.
internaționale IEEE privind viziunea computerizată (p. 4193–4202).
Inácio, ADS, Gutoski, M., Lazzaretti, AE și Lopes, HS (2021). OSVidCap: un cadru pentru recunoașterea și
descrierea simultană a acțiunilor concurente în videoclipuri într-un scenariu deschis. Acces IEEE, 9,
137029–137041.
Disponibilitatea datelor
Jain, V., Al-Turjman, F., Chaudhary, G., Nayar, D., Gupta, V. și Kumar, A. (2022).
Subtitrări video: o trecere în revistă a teoriei, tehnicilor și practicilor. Instrumente și aplicații
Datele vor fi puse la dispoziție la cerere. multimedia , 81(25), 35619–35653.
Järvelin, K., & Kekäläinen, J. (2002). Evaluarea acumulată bazată pe câștig a tehnicilor IR.

Mulțumiri ACM Transactions on Information Systems, 20(4), 422–446.


Ji, W. și Wang, R. (2021). O abordare de învățare duală cu mai multe instanțe, cu mai multe etichete,
pentru subtitrări video. Tranzacții ACM privind calcularea multimedia, comunicațiile și aplicațiile,
AS Inácio mulțumește UNIEDU/FUMDES – Pós-Graduação pentru bursă, iar HS 17(2s), 1–18.
Lopes mulțumește Consiliului Național de Cercetare din Brazilia (CNPq) pentru Jiang, M., Hu, J., Huang, Q., Zhang, L., Diesner, J. și Gao, J. (2019). REO-relevanță, extraness, omisiune: O

grantul de cercetare 311785/2019-0. evaluare fină pentru subtitrărea imaginilor. În Proc. a 10-a conferință internațională comună
privind prelucrarea limbajului natural (p. 1475–1480).
Jiang, M., Huang, Q., Zhang, L., Wang, X., Zhang, P., Gan, Z., și colab. (2020). Tigru: Legătura text la imagine
Referințe
pentru evaluarea subtitrării imaginii. În Proc. A 9-a conferință internațională comună privind
prelucrarea limbajului natural (pp. 2141–2152).
Aafaq, N., Mian, A., Liu, W., Gilani, SZ și Shah, M. (2019). Descriere video: un studiu al metodelor, seturilor Kilickaya, M., Erdem, A., Ikizler-Cinbis, N. și Erdem, E. (2017). Reevaluarea valorilor automate pentru
de date și valorilor de evaluare. ACM Computing Surveys, 52(6), 1–37. subtitrărea imaginilor. În Proc. a celei de-a XV-a conferințe a capitolului european al asociației
pentru lingvistică computațională (pp. 199–209).
Amirian, S., Rasheed, K., Taha, TR și Arabnia, HR (2020). Generare automată de subtitrări pentru imagini Krishna, R., Hata, K., Ren, F., Fei-Fei, L. și Niebles, JC (2017). Evenimente cu subtitrări dense în videoclipuri.
și videoclipuri cu învățare profundă: o revizuire concisă și o suprapunere algoritmică. Acces În Proc. a conferinței internaționale IEEE privind viziunea computerizată (p. 706–715).
IEEE, 8(1), 218386–218400.
Anderson, P., Fernando, B., Johnson, M. și Gould, S. (2016). Spice: evaluare semantică a subtitrării imaginii. Kullback, S. și Leibler, RA (1951). Despre informare și suficiență. The Annals of Mathematical Statistics,
În conferința europeană despre viziunea computerizată (pp. 382–398). 22(1), 79–86.
Laina, I., Rupprecht, C., & Navab, N. (2019). Către subtitrări de imagini nesupravegheate cu încorporare
Antonio, S., Croce, D. și Basili, R. (2019). Seturi de date la scară largă pentru subtitrări pentru imagini și multimodală partajată. În Proc. a conferinței internaționale IEEE/CVF privind viziunea computerizată
videoclipuri în italiană. Jurnalul italian de lingvistică computațională, 5(5–2), 49–60. (p. 7414–7424).
Baâzaoui, A., Barhoumi, W., Ahmed, A., & Zagrouba, E. (2018). Modelarea cunoștințelor medicale ale Lee, K.-H., Chen, X., Hua, G., Hu, H. și He, X. (2018). Atenție încrucișată stivuită pentru potrivirea imagine-
clinicianului în ceea ce privește caracteristicile de nivel medical pentru extragerea mamografiei bazate text. În Proc. a conferinței europene privind viziunea computerizată (p. 212–228).
pe conținut semantic. Expert Systems with Applications, 94, 11–20.
Banerjee, S. și Lavie, A. (2005). METEOR: O metrică automată pentru evaluarea MT cu corelație Lee, H., Yoon, S., Dernoncourt, F., Bui, T. și Jung, K. (2021). UMIC: O valoare fără referință pentru
îmbunătățită cu judecățile umane. În Proc. a atelierului ACL privind măsurile de evaluare subtitrărea imaginilor prin învățarea contrastantă. În Proc. a celei de-a 59-a reuniuni anuale a
intrinseci și extrinseci pentru traducerea automată și/sau rezumat (pag. 65–72). asociației pentru lingvistică computațională și a 11-a conferință internațională comună
privind prelucrarea limbajului natural (volumul 2: lucrări scurte) (p. 220–226).
Bin, Y., Shang, X., Peng, B., Ding, Y. și Chua, T.-S. (2021). Subtitrări video cu mai multe perspective . În Proc. Lee, H., Yoon, S., Dernoncourt, F., Kim, DS, Bui, T. și Jung, K. (2020). ViLBERTScore: Evaluarea subtitrării
a celei de-a 29-a conferințe internaționale ACM privind multimedia (p. 5110–5118). imaginii utilizând viziunea și limbajul BERT. În Proc. al primului atelier de evaluare și comparare a
sistemelor NLP (p. 34–39).

16
Machine Translated by Google

AdS Inácio și HS Lopes Învățare automată cu aplicații 13 (2023) 100488

Lin, C.-Y. (2004). ROUGE: Un pachet pentru evaluarea automată a rezumatelor. În rezumatul text se Stefanini, M., Cornia, M., Baraldi, L., Cascianelli, S., Fiameni, G., & Cucchiara, R.
ramifică (p. 74–81). (2023). De la emisiune la poveste: un sondaj despre subtitrări de imagini bazate pe învățarea profundă.
Liu, M., Hu, H., Li, L., Yu, Y. și Guan, W. (2020). Generarea de subtitrări chinezești prin atenție vizuală IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(1), 539–559. http://dx.doi.org/
și modelare subiect. IEEE Transactions on Cybernetics, 52(2), 1247–1257. 10.1109/TPAMI.2022.3148210.
Vedantam, R., Lawrence Zitnick, C. și Parikh, D. (2015). Cidru: evaluarea descriere a imaginii pe bază
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., și colab. (2019). ROBERTa: O abordare de preformare de consens. În Proc. a conferinței IEEE privind viziunea computerizată și recunoașterea
BERT optimizată robust. ArXiv, arXiv:1907.11692. modelelor (pag. 4566–4575).
Liu, X., Xu, Q. și Wang, N. (2019). Un sondaj asupra imaginii bazate pe rețele neuronale profunde Venugopalan, S., Rohrbach, M., Donahue, J., Mooney, R., Darrell, T. și Saenko, K.
subtitrare. The Visual Computer, 35(3), 445–470. (2015). Secvență la secvență – video în text. În Proc. a conferinței internaționale IEEE privind
Lu, J., Batra, D., Parikh, D. și Lee, S. (2019). ViLBERT: Reprezentări viziolingvistice agnostice pentru viziunea computerizată (p. 4534–4542).
sarcini pentru sarcinile de viziune și limbaj. În Progrese în sistemele de procesare a informațiilor Wang, S., Yao, Z., Wang, R., Wu, Z. și Chen, X. (2021). FAIEr: Fidelitatea și adecvarea au asigurat
neuronale (pp. 1–11). evaluarea subtitrării imaginii. În Proc. a conferinței IEEE/CVF privind viziunea computerizată și
Madhyastha, PS, Wang, J. și Specia, L. (2019). VIFIDEL: Evaluarea fidelității vizuale a descrierilor recunoașterea modelelor (pp. 14050–14059).
imaginilor. În Proc. a celei de-a 57-a reuniuni anuale a asociației pentru lingvistică Witten, IH și Frank, E. (2005). Data minin: instrumente și tehnici practice de învățare automată (ed.
computațională (p. 6539–6550). a 2-a). Morgan Kaufmann.
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). Bleu: O metodă de evaluare automată a traducerii Xu, J., Mei, T., Yao, T. și Rui, Y. (2016). MSR-VTT: un set mare de date de descriere video pentru a legături
automate. În Proc. a celei de-a 40-a reuniuni anuale a asociației pentru lingvistică computațională între video și limbă. În Proc. a conferinței IEEE privind viziunea computerizată și recunoașterea
(p. 311–318). modelelor (pag. 5288–5296).
Perlin, HA și Lopes, HS (2015). Extragerea atributelor umane folosind o abordare a rețelei neuronale Zhang, T., Kishore, V., Wu, F., Weinberger, KQ și Artzi, Y. (2020). BERTScore: Evaluarea generării de text
convoluționale. Pattern Recognition Letters, 68, 250–259. cu BERT. În Proc. A 8-a conferință internațională privind reprezentările învățării (p. 1–43).
Phillips, PJ, Hahn, CA, Fontana, PC, Yates, AN, Greene, K., Broniatowski, D.
A., i colab. (2021). Patru principii ale inteligenței artificiale explicabile: Raport intern NISTIR 8312, Zhou, L., Xu, C. și Corso, JJ (2018). Către învățarea automată a procedurilor din videoclipuri cu
Institutul Național de Standarde și Tehnologie. instrucțiuni web. În Proc. a celei de-a 32-a conferințe AAAI privind inteligența artificială (p.
Radford, A., Kim, JW, Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., și colab. (2021). 7590–7598).
Învățarea modelelor vizuale transferabile din supravegherea limbajului natural. În Proc. a celei
de -a 38-a conferințe internaționale privind învățarea automată, Vol. 139 (p. 8748–8763).
Rafiq, M., Rafiq, G. și Choi, GS (2021). Descriere video: Seturi de date și evaluare
metrici. Acces IEEE, 9, 121665–121685. Andrei de Souza Inácio a primit diplomele de licență și master în

Ramanishka, V., Das, A., Park, DH, Venugopalan, S., Hendricks, LA, Rohrbach, M. și colab. (2016). Informatică de la Universitatea Federală din Santa Catarina (UFSC) în

Descriere video multimodală. În Proc. a celei de-a 24-a conferințe internaționale ACM despre 2013, respectiv 2016. Din 2014, este lector la Institutul Federal din Moș
Crăciun
multimedia (p. 1092–1096).
Rohrbach, A., Rohrbach, M., Qiu, W., Friedrich, A., Pinkal, M., & Schiele, B. (2014). Catarina (IFSC). În prezent urmează un doctorat. diplomă în Inginerie

Descriere video coerentă cu mai multe propoziții, cu nivel variabil de detaliu. În Proc. a celei de-a Electrică și Calculatoare la Universitatea Federală de Tehnologie –

36-a conferințe germane privind recunoașterea modelelor (p. 184–195). Paraná, PR, Brazilia. Are experiență profesională în design de

Rohrbach, A., Torabi, A., Rohrbach, M., Tandon, N., Pal, C., Larochelle, H., et al. sisteme informatice, dezvoltare web și management de proiecte IT.

(2017). Descrierea filmului. International Journal of Computer Vision, 123, 94–120. Interesele sale de cercetare includ, dar nu se limitează la, viziunea

Sharif, N., Nadeem, U., Shah, SAA, Bennamoun, M. și Liu, W. (2020). Viziunea asupra limbii: metode, computerizată, învățarea automată și extragerea datelor.

metrici și seturi de date. În paradigmele de învățare automată (pp. 9–62).


Sharif, N., White, L., Bennamoun, M., Liu, W. și Shah, SAA (2019). Lceval: Valoare compusă învățată
pentru evaluarea subtitrărilor. Jurnalul Internațional de Viziune pe Computer, 127(10), 1586–1610.
Heitor Silvério Lopes a obținut diplomele de licență și masterat în
Inginerie Electronică de la Universitatea Federală de Tehnologie –
Sharif, N., White, L., Bennamoun, M., Liu, W. și Shah, SAA (2020). WEmbSim: O valoare simplă, dar
Paraná (UTFPR) în 1984, respectiv 1990, iar doctoratul de la Universitatea
eficientă pentru subtitrărea imaginilor. În Proc. de calcul al imaginilor digitale IEEE : tehnici și
Federală din Santa Catarina în 1996. Ulterior, în 2014, el a petrecut un
aplicații (pp. 1–8).
an sabatic la Departamentul de Inginerie Electrică și Informatică de
Sharif, N., White, L., Bennamoun, M. și Shah, SAA (2018). NNEval: Valoarea de evaluare bazată pe
la Universitatea din Tennessee, SUA. Din 2003, el este cercetător al
rețea neuronală pentru subtitrărea imaginilor. În Proc. a conferinței europene privind viziunea
Consiliului Național de Cercetare din Brazilia în domeniul informaticii.
computerizată (p. 37–53).
În prezent, este profesor titular titular la Departamentul de Electronică
Shi, Y., Yang, X., Xu, H., Yuan, C., Li, B., Hu, W., și colab. (2022). EMScore: evaluarea subtitrărilor video
și la Programul Absolvent în Inginerie Electrică și Informatică
prin potrivirea încorporarii cu granulație grosieră și cu granulație fină. În Actele conferinței
Aplicată (CPGEI) la UTFPR, Curitiba. A fost co-fondatorul și fostul
IEEE/CVF privind viziunea computerizată și recunoașterea modelelor (p. 17929–17938).
președinte al Societății braziliane de inteligență computațională
(SBIC). Interesele sale majore de cercetare sunt în domeniile viziunii
Sigurdsson, G.A., Varol, G., Wang, X., Farhadi, A., Laptev, I., & Gupta, A. (2016).
computerizate, învățării profunde, calculului evolutiv și extragerea
Hollywood în case: colectarea de date în crowdsourcing pentru înțelegerea activității. În Proc.
datelor.
a conferinței europene privind viziunea computerizată (p. 510–526).
Singh, A., Singh, TD și Bandyopadhyay, S. (2022). Subtitrări video bazate pe atenție
cadru pentru hindi. Sisteme multimedia, 28(1), 195–207.

17

S-ar putea să vă placă și