Sunteți pe pagina 1din 3

Extragere automată a corlațiilor între

variabile prezentate în studii de psihologie

Echipă

• Tudor-Ștefan Berbinschi
• Răzvan-Andrei Ciocoiu
• Marius-George Roman
• Rareș-Teodor Rugină

Abstract

Corelațiile între variabile prezentate în studii de psihologie contribuie semnificativ la atestarea stadiului
curent al cercetărilor științifice, construind rețele de asociere pentru relațiile dintre perechi de concepte
diferite. Cu toate acestea, în majoritatea cazurilor aceste informații sunt găsite doar sub formă de text
exprimat în limbaj natural, uman – articole de jurnal, publicații etc. –, care reprezintă o adevărată
provocare în sensul analizei automate (realizate de o mașină programabilă) pentru a alimenta procesul de
documentare în vederea realizării de recenzii sistematice, meta-analiză sau alte studii de sinteză.
Arhitectura noastră SoTA prezintă un sistem de extragere automată a informațiilor esențiale, ajutând
utilizatorii să extragă, în mod facil și rapid, date cheie despre eșantioane sau variabilele studiate și
corespondența dintre ele. Cercetarea în direcția extragerii și a analizei automate a datelor din articolele
este o zonă nouă de studiu (Zhao, Praveen, & Kan, 2012).

SoTA

Cele mai complexe, eficiente și avansate metode disponibile, bazate pe arhitecturi care descriu proceduri
de extragere automată a informațiilor metodice, sunt elaborate, până în acest moment (conform analizei
literaturii de specialitate), pentru alte tipuri de publicații de jurnal, precum cele care descriu experimente
clinice – ExaCT (Kiritchenko, Bruijn, Carini, Martin, & Sim, 2010) sau (Zhao, Praveen, & Kan, 2012) –.

În acest sens, direcția abordată de ExaCT este bazată pe o paradigmă a domeniului de învățare automată.
Material utilizat pentru antrenament este adnotat în mod manual, astfel încât sistemul programat să
poată învăța în mod automat contextul pentru fiecare element informațional. Apoi, este elaborată o
mulțime de reguli „slabe” produse manual (pe baza cunoștințelor expert), care vor fi aplicate pe
contextele identificate pentru a extrage valorile exacte pentru fiecare element. Această procedură în doi
pași a rezultat în următoarea arhitectură de sistem:

1. Preprocesarea textului, spargerea acestuia în propoziții, adnotarea automată a entităților de


interes, identificarea antetelor de secțiuni, eliminarea secțiunilor irelevante;
2. Pentru fiecare unitate informațională:
a. Clasificare a contextului (componenta de clasificare)
b. Aplicare a regulilor „slabe” (componenta de extragere)
3. Postprocesarea rezultatelor

În acest context, sistemul elaborat de noi adaptează pentru domeniul curent de interes (psihologia) și
îmbunătățește procedurile prezentate de (Kiritchenko, Bruijn, Carini, Martin, & Sim, 2010), folosind noi
tehnici de clasificare (State-of-The-Art în domeniul procesării limbajului uman) a contextului (precum
Rețele Neuronale Convoluțioane, Rețele Neuronale Recurente, embedding-uri vectoriale ale unităților
atomice etc.) și, de asemenea, introducând reguli pentru procesarea unităților structurale de natură
tabelară.

Sistemul elaborat

În timp ce (Kiritchenko, Bruijn, Carini,


Martin, & Sim, 2010) descriu metode
de preprocesare bazate pe marcare a
etichetelor, (Zhao, Praveen, & Kan,
2012) explorează utilizarea detaliilor
lexicale, semantice, structurale și
propoziționale în vederea extragerii
de informații cheie.

Direcția abordată de noi este de


eliminare a secțiunilor irelevante ale
articolului – ex. altele exceptând
“Participants”, “Method”,
“Participants and measures” –,
spargere a textului în unități atomice
(propoziții) și adnotare a acestora pe
bază de context – ex. eșantion,
asocieri eșantion-variabilă, variabile
–.

După procesul automat descris


anterior, începem procesul de
extragere a informațiilor din
elementele atomice identificate, pe
baza mulțimii alcătuite manual de
reguli „slabe” pentru extragere
deterministă a informațiilor de
interes, ținând cont de contextul
dedus.
Pentru clasificarea de unități structurale atomice (propoziții), propunem două abordări bazate pe tipuri
diferite de embedding: la nivel de caracter, respectiv la nivel de unitate propoziționala – cuvânt – (Mikolov,
Chen, Corrado, & Dean, 2013) – vectori 300-dimensionali pre-antrenați pe setul de date Google News
(care conține aproximativ 100 miliarde de cuvinte) prin tehnica Word2Vec; modelul păstrează 3 milioane
de cuvinte și sintagme.

În primul rând, vom explora utilizarea de Rețele Neuronale Convoluționale, folosind atât embedding-uri
antrenabile (Zhang, Zhao, & LeCun, 2016), cât și embedding-uri pre-antrenate (precum cel amintit mai
sus, bazat pe Word2Vec antrenat pe setul de date Google News).

În al doilea rând, vom continua cercetarea în vederea clasificării unităților structurale atomice în
contextele de interes prin utilizarea Rețelelor Neuronale Recurente bazate pe arhitecutra C-LSTM,
abordând, din nou, metodele de embedding prezentate anterior.

Peste elementele clasificate aplicăm, ulterior, regulile „slabe” elaborate pentru extragerea de date de
interes (cheie) – ex. media/ deviația standard a unei variabile este extrasă din primul subșir de caractere
care are structură strictă de număr cu virgulă mobilă, dimensiunea unui eșantion este un număr întreg
etc.

Utilizând mulțimea de variabile identificate prin metodele descrise, căutăm, apoi, în corpusul neparcurs
al articolului țintă structuri tabelare care respectă regulile „slabe” de formatare.

În final, toate datele adunate sunt agregate într-un microserviciu sub forma unui API pus la dispoziție pe
Internet.

Referințe
Kiritchenko, S., Bruijn, B. d., Carini, S., Martin, J., & Sim, I. (2010). ExaCT: automatic extraction of clinical
trialcharacteristics from journal publications. Kiritchenko et al., BMC Medical Informatics and
Decision Making, 10:56. Retrieved from
https://bmcmedinformdecismak.biomedcentral.com/track/pdf/10.1186/1472-6947-10-56

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in
Vector Space. Retrieved from https://arxiv.org/abs/1301.3781

Zhang, X., Zhao, J., & LeCun, Y. (2016). Character-level Convolutional Networks for Text Classification.
New York. Retrieved from https://arxiv.org/abs/1509.01626

Zhao, J., Praveen, B., & Kan, M.-Y. (2012). Exploiting Classification Correlations for the Extraction of
Evidence-based Practice Information. Retrieved from
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3540431/pdf/amia_2012_symp_1070.pdf

Zhou, C., Sun, C., Liu, Z., & Lau, F. C. (2016). A C-LSTM Neural Network for Text Classification. Retrieved
from https://arxiv.org/abs/1511.08630

S-ar putea să vă placă și