Documente Academic
Documente Profesional
Documente Cultură
SoTA - Extragere Automată A Corlațiilor Între Variabile Prezentate În Studii de Psihologie
SoTA - Extragere Automată A Corlațiilor Între Variabile Prezentate În Studii de Psihologie
Echipă
• Tudor-Ștefan Berbinschi
• Răzvan-Andrei Ciocoiu
• Marius-George Roman
• Rareș-Teodor Rugină
Abstract
Corelațiile între variabile prezentate în studii de psihologie contribuie semnificativ la atestarea stadiului
curent al cercetărilor științifice, construind rețele de asociere pentru relațiile dintre perechi de concepte
diferite. Cu toate acestea, în majoritatea cazurilor aceste informații sunt găsite doar sub formă de text
exprimat în limbaj natural, uman – articole de jurnal, publicații etc. –, care reprezintă o adevărată
provocare în sensul analizei automate (realizate de o mașină programabilă) pentru a alimenta procesul de
documentare în vederea realizării de recenzii sistematice, meta-analiză sau alte studii de sinteză.
Arhitectura noastră SoTA prezintă un sistem de extragere automată a informațiilor esențiale, ajutând
utilizatorii să extragă, în mod facil și rapid, date cheie despre eșantioane sau variabilele studiate și
corespondența dintre ele. Cercetarea în direcția extragerii și a analizei automate a datelor din articolele
este o zonă nouă de studiu (Zhao, Praveen, & Kan, 2012).
SoTA
Cele mai complexe, eficiente și avansate metode disponibile, bazate pe arhitecturi care descriu proceduri
de extragere automată a informațiilor metodice, sunt elaborate, până în acest moment (conform analizei
literaturii de specialitate), pentru alte tipuri de publicații de jurnal, precum cele care descriu experimente
clinice – ExaCT (Kiritchenko, Bruijn, Carini, Martin, & Sim, 2010) sau (Zhao, Praveen, & Kan, 2012) –.
În acest sens, direcția abordată de ExaCT este bazată pe o paradigmă a domeniului de învățare automată.
Material utilizat pentru antrenament este adnotat în mod manual, astfel încât sistemul programat să
poată învăța în mod automat contextul pentru fiecare element informațional. Apoi, este elaborată o
mulțime de reguli „slabe” produse manual (pe baza cunoștințelor expert), care vor fi aplicate pe
contextele identificate pentru a extrage valorile exacte pentru fiecare element. Această procedură în doi
pași a rezultat în următoarea arhitectură de sistem:
În acest context, sistemul elaborat de noi adaptează pentru domeniul curent de interes (psihologia) și
îmbunătățește procedurile prezentate de (Kiritchenko, Bruijn, Carini, Martin, & Sim, 2010), folosind noi
tehnici de clasificare (State-of-The-Art în domeniul procesării limbajului uman) a contextului (precum
Rețele Neuronale Convoluțioane, Rețele Neuronale Recurente, embedding-uri vectoriale ale unităților
atomice etc.) și, de asemenea, introducând reguli pentru procesarea unităților structurale de natură
tabelară.
Sistemul elaborat
În primul rând, vom explora utilizarea de Rețele Neuronale Convoluționale, folosind atât embedding-uri
antrenabile (Zhang, Zhao, & LeCun, 2016), cât și embedding-uri pre-antrenate (precum cel amintit mai
sus, bazat pe Word2Vec antrenat pe setul de date Google News).
În al doilea rând, vom continua cercetarea în vederea clasificării unităților structurale atomice în
contextele de interes prin utilizarea Rețelelor Neuronale Recurente bazate pe arhitecutra C-LSTM,
abordând, din nou, metodele de embedding prezentate anterior.
Peste elementele clasificate aplicăm, ulterior, regulile „slabe” elaborate pentru extragerea de date de
interes (cheie) – ex. media/ deviația standard a unei variabile este extrasă din primul subșir de caractere
care are structură strictă de număr cu virgulă mobilă, dimensiunea unui eșantion este un număr întreg
etc.
Utilizând mulțimea de variabile identificate prin metodele descrise, căutăm, apoi, în corpusul neparcurs
al articolului țintă structuri tabelare care respectă regulile „slabe” de formatare.
În final, toate datele adunate sunt agregate într-un microserviciu sub forma unui API pus la dispoziție pe
Internet.
Referințe
Kiritchenko, S., Bruijn, B. d., Carini, S., Martin, J., & Sim, I. (2010). ExaCT: automatic extraction of clinical
trialcharacteristics from journal publications. Kiritchenko et al., BMC Medical Informatics and
Decision Making, 10:56. Retrieved from
https://bmcmedinformdecismak.biomedcentral.com/track/pdf/10.1186/1472-6947-10-56
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in
Vector Space. Retrieved from https://arxiv.org/abs/1301.3781
Zhang, X., Zhao, J., & LeCun, Y. (2016). Character-level Convolutional Networks for Text Classification.
New York. Retrieved from https://arxiv.org/abs/1509.01626
Zhao, J., Praveen, B., & Kan, M.-Y. (2012). Exploiting Classification Correlations for the Extraction of
Evidence-based Practice Information. Retrieved from
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540431/pdf/amia_2012_symp_1070.pdf
Zhou, C., Sun, C., Liu, Z., & Lau, F. C. (2016). A C-LSTM Neural Network for Text Classification. Retrieved
from https://arxiv.org/abs/1511.08630