Sunteți pe pagina 1din 15

UNIVERSITATEA POLITEHNICA DIN BUCURES, TI

FACULTATEA DE AUTOMATICĂ S, I CALCULATOARE


DEPARTAMENTUL DE CALCULATOARE
Computer Science - Logo
HBFX

Computer Science
& Engineering
Department

Computer Science
& Engineering
Department

PROIECT SAIW

Tendint, e Literare

Dinică Robert

INDRUMĂTORI: Laurent, iu Neagu

BUCURES, TI
2023
CONTENTS

Abstract v

1 Introduction 1

1.1 Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Problemă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.3 Obiective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2 State of the art 2

3 Setul de date 4

4 Modele 5

4.1 Latent Dirichlet Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

4.2 BertTopic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

5 Rezultate 7

5.1 Rezultate LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

5.2 Rezultate BertTopic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

6 Concluzii s, i Direct, ii Viitoare 11

References 12

i
ABSTRACT
În contextul domeniului de Învăt, are Automată, Topic Modelling este o tema extrem de popu-
lară care are rolul să evident, ieze, pe baza unui anumit set de documente, principalele subiecte
prezente ı̂n acestea ı̂n formatul unor topice astfel ı̂ncât să avem o viziune mai clară s, i sim-
plificată asupra informat, iilor care se regăsesc ı̂n aceste texte. Subiectul de Tendint, e Literare,
abordat ı̂n această lucrare, poate fi interpretat ca un subiect de Topic Modelling, astfel cele
două modele prezentate ı̂n aceasta lucrare sunt bazate pe Latent Dirichlet Allocation (LDA)
s, i pe BertTopic, un model special conceput pentru subiectul de Topic Modelling.

v
1 INTRODUCTION
1.1 Context

Topic Modelling este un subiect din domeniul Procesării Limbajului care are la baza ı̂nvăt, area
nesupervizată s, i presupune analizarea unui set de documente s, i determinarea pe baza acestora
a unui set de documente care să sumarizeze principalele informat, ii prezentate ı̂n textele anal-
izate. Dată fiind utilitatea practică pe care aceste subiect o are au fost dezvoltate nenumărate
modele bazate pe Învăt, area Automată cele mai cunoscute fiind cele care utilizează LDA si
Matrix Factorization.

1.2 Problemă

Proiectul de fat, ă are ca scop descoperirea tendint, elor literare prezente de-a lungul timpului ı̂n
texte vechi din literatura română. Acest temă poate fi vazută ca un subiect de Topic Modeling.
Topic modeling este o metodă de ı̂nvăt, are nesupervizată care constă ı̂n scanarea unui set de
documente s, i găsirea de structuri similare care apoi pot fi grupate pentru a descrie cât mai
bine setul de documente. Deoarece topic modeling este o metodă de ı̂nvăt, are nesupervizată,
nu poti avea sigurant, a că rezultatele obt, inute sunt cele mai bune, de aceea, de cele mai
multe ori, se optează pentru antrenarea unui unui model pentru clasificarea de topice. Topic
modeling presupune, intr-un mod simplificat, numararea cuvintelor din documente s, i gruparea
cuvintelor cu o structură similară pentru inferarea de topice prezente ı̂n date nestructurate.

1.3 Obiective

Lucrarea de fat, ă are ca scop prezentarea a două modele pentru rezolvarea subiectului de
Tendint, e Literare, scopul fiind pus pe analizarea modulu ı̂n care topicele găsite sunt distribuite
de-a lungul timpului. De asemenea, un alt scop este dat analizarea rezultatelor pe care modelul
bazat pe BertTopic le are ı̂n comparat, ie cu modelul care utilizează LDA.

1
2 STATE OF THE ART
Cea mai populară metodă pentru subiectul de Topic Modeling este LDA (Latent Dirichlet
allocation). Acest model are la bază două principii:

• Fiecare document este un mix de topice

• Fiecare topic este un mix de cuvinte

LDA este un algoritm care constă ı̂n estimarea celor două principii simultan. găsind grupul
de cuvinte care sunt asociate cu fiecare topic, ı̂n acelas, i timp, descoperind grupul de topice
care descriu cel mai bine un document. Din punct de vedere matematic, LDA este o tehnică
de factorizare de matrici. Astfel, ı̂n cazul acestui algoritm se face presupunerea că un set de
documente poate fi reprezentat ca o matrice document termen (fiecare cuvant ı̂n ce document
apare).

Pentru subiectul de Topic Modeling mai sunt cunoscute s, i alte metode, ca de exemplu: Term
Frequency and Inverse Document Frequency, NonNegative Matrix Factorization. Odată cu
aparit, ia Bert Devlin et al. (2018), model care se poate folosi in contextual a foarte multe
subiecte din domeniul Procesării Limbajului Natural cu rezultate foarte bune, au fost propuse si
modele pentru Bert care pot fi folosite ı̂n contextual subiectului de Topic Modeling. Un astfel
de model este BertTopic Grootendorst (2022), care se bazează pe arhitectura Transformer
s, i TF-IDF (Term Frequency-Inverse Document Frequency). Proiectul de fat, ă are ca scop
determinarea celor mai populare topice prezente ı̂n documente literare vechi care apart, in
literaturii române. Astfel se urmares, te obt, inerea unei distribut, ii a celor mai populare topicede-
a lungul unei perioade de timp. În Figura 1 se poat observa cele mai populare topice pe o
perioadăde timp de 50 de ani la o diferent, ă de 5 ani. În figura prezentată mai jos s-au folosit
date preluate din Chronology of Romanian Literary Life (CVLR) Neagu et al. (2020).

2
Figure 1: Distribuit, ia topicelor de-a lungul timpului prezente ı̂n CVLR (Chronology of Roma-
nian Literary Life)

3
3 SETUL DE DATE
Setul de date constă din 772 de documente cupinse ı̂ntre secolul IV s, i secolul XIX. În Figura
2 este prezentată distribut, ia documentelor (textelor) ı̂n funct, ie de secol.

Figure 2: Distribut, ia documentelor ı̂n funct, ie de secol

4
4 MODELE
4.1 Latent Dirichlet Allocation

Modelul de fata este bazat pe Latent Dirichlet Allocation. Astfel, s-a folosit LdaMulticore din
biblioteca gensim, care este un model paralelizat pentru LDA. Acest model primes, te urmatorii
parametrii:

• corpus (un stream de vectori de documente de forma: (num-documents, num-terms)))

• num topics (numarul de topice catre trbuie extrase din corpus)

• id2word (o mapare intre id-urile cuvintelor si cuvinte, folosit pentru a determina dimen-
siunea vocabularului, cat si pentru debugging si printarea topicelor)

• workers (numarul de procese care vor fi folosite pentru paralelizare)

• chunksize (numarul de documente care sa fie folosit in fiecare chunk de antrenare)

• passes (numarul de treceri prin corpus in timpul antrenarii)

• alpha (Parametru care estimeaza apriori distributia document topic)

• eta (Parametru care estimeaza apriori distributia topic cuvant)

Pentru evaluarea modelului s-a folosit metrica de coherance. Prin aceasta metrica se verifica
daca un suport de afirmatii coerente intre ele. In contextul modelului de fata s-a folosit cv,
care se bazeaza pe normalized pointwise mutual information (NPMI) si pe cosine similarity.
Pentru a determina cel mai bun model s-a folosit grid search pentru urmatorii hiperparametrii:

• num-topics

• alpha

• eta

Astfel, cel mai bun model are urmatori hiperparametrii: num topics: 8, alpha: 0.11, eta: 0.91.

5
4.2 BertTopic

Modelele clasice pentru subiectul de Topic Modelling sunt LDA s, i NMF care, cu toate ca
au rezultate bune, sunt uneori ineficiente, fiind complicat să determinăm valori potrivite
pentru hiperparametrii. De asemnea, t, inând cont de rezultatele foarte bune pe care le are
BERT ı̂n foarte multe probleme din domeniul Procesării Limbajului Natural a apărut ideea
de a utiliza BERT s, i ı̂n cazul subiectului de Topic Modelling. Din punct de vedere arhi-
tectural, primul pas ı̂n cazul modelului BertTopic este determinarea reprezentării vectoriale
a cuvintelor (cunoscută s, i sub denumirea de embeddings), care presupune convertirea tex-
telor ı̂n format numeric. Astfel, pentru această etapă este folosit un model de BERT, care
are rolul de a determina reprezentările vectoriale ale cuvintelor ı̂n funct, ie de context. Cel
de-al doilea pas este cel de clusterizare, care presupune gruparea documentelor cu topice
similare ı̂n acelas, i cluster astfel ı̂ncât să se poată găsi topicele din clusterele create. Pentru
această etapă sunt folosit, i algoritmii UMAP si HDBSCAN. Următoarea etapă este reprezen-
tată de crearea topicelor. Astfel, ı̂n cadrul acestei etape este folosită o versiune de TF-IDF
care să permită extragerea elementelor care fac fiecare set de documente dintr-un cluster
unice. Ultimul pas este reprezentat de reducerea numărului de topice. Acest pas este real-
izat prin modificarea hiperparametrului min cluster size din HDBSCAN. BertTopic este con-
stuit ca o bibliotecă s, i expune o serie de funct, ii care pot fi folosite pentru dezvoltarea unui
model pentru Topic Modelling. Astfel, init, ilalizarea modelului de BertTopic se realizează ı̂n
felul următor: BERTopic(verbose=True, n gram range=(1,3), embedding model=”sentence-
transformers/paraphrase-multilingual-mpnet-base-v2”, nr topics= 8), unde embedding model
reprezintă tipului modelului de transformers folosit, iar nr topics reprezintă numarul de top-
ice care se dores, te a fi creat. Pentru a face fit modelului init, ializat se apelează metoda
fit transform, care primes, te ca parametru documentele pentru care se dores, te determinarea
topicelor. Pentru vizualizarea topicelor se poate folosi metoda vizualize topics. În cazul mod-
elului folosit ı̂n acest proiect pentru embedding model a fost utilizată versiunea: sentence-
transformers/paraphrase-multilingual-mpnet-base-v2, iar pentru nr topics s-a utilizat valoarea
8.

6
5 REZULTATE
5.1 Rezultate LDA

Pentru vizulizarea intr-un mod interactiv a topicelor s-a folosit biblioteca pyLDAvis. In Figura
3 este prezentat rezultatul aplicarii pyLDAvis. Astfel, fiecare cerc reprezinta un topic,iar cu
cat cercul este mai mare cu atat mai multe documente din corpus sunt despre acel topic.
Liniile albastre reprezinta frecventa cuvintelor din topicul respectiv in corpus, iar liniile rosi
reprezinta de cate ori un cuvant a fost generat de un anumit topic. In cazul in care nu este
selectat un anumit topic liniile albastre vor reprezenta cele mai frecvente cuvinte din corpus.

Figure 3: Vizualizarea topicelor prin intermediul pyLDAvis

Valoarea obtinuta de cel mai bun model pentru metrica de coherance este 0.364. Cont, inutul
topicelor ı̂n funct, ie de ponderile cuvintelor sunt prezentate ı̂n Figura 4.

5.2 Rezultate BertTopic

În continuare vor fi prezentate rezultatele obt, inute de modelul bazat pe BertTopic pentru
subiectul de Tendint, e Literare pentru texte literare vechi. Astfel, ı̂n Figura 5 sunt prezentate
topicele create s, i numărul de documente ı̂n care aceste topice se regăsesc.

7
Figure 4: Cont, inutul topicelor ı̂n funct, ie de ponderile cuvintelor

Figure 5: Topicele create s, i distribut, ia acestora ı̂n documente

În Figura 6 este prezentată harta distant, ei ı̂ntre tropice, care permite o vizualizare interactivă a
topicelor create. Dat fiind faptul ca scopul acestui proiect este acela de a determina tendint, ele
literare de-a lungul unei perioade de timp, in Figura 7 este prezentată evolut, ia topicelor de-a
lungul timpului, ı̂ncepând din secolul 13 s, i până ı̂n secolul 19. În Figura 8 pentru fiecare topic
sunt prezentate cele mai relevante cuvinte care se regăsesc ı̂n acel topic.

Pentru evaluarea rezultatelor obt, inute de modelul bazat pe BertTopic s-a utilizat metrica
coherence score, iar rezultatul obt, inut este: 0.635.

8
Figure 6: Harta distant, ei ı̂ntre topice

Figure 7: Evolut, ia topicelor de-a lungul timpului

9
Figure 8: Cuvintele cele mai relevante ı̂n funct, ie de topic

10
6 CONCLUZII S, I DIRECT, II VIITOARE
Având ı̂n vedere rezultatele obt, inute pentru metrica de coherence score atât pentru modelul
bazat pe LDA, care a obt, inut valoarea 0.364, cât s, i pentru modelul care are la bază BertTopic
se poate observa că cel din urmă are o performant, ă mai bună. De asemenea, BertTopic,
spre deosebire de modele pentru subiectul de Topic Modelling, oferă, pe lângă performant, e
mai bune, s, i o mai mare flexibilitate, fiind foarte us, or sa utilizăm un model de embedding
pre-antrenat pentru o anumită limbă sau pentru un anumit domeniu.

11
REFERENCES
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep
bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 .

Grootendorst, M. (2022). Bertopic: Neural topic modeling with a class-based tf-idf procedure.
arXiv preprint arXiv:2203.05794 .

Neagu, L.-M., Cotet, T.-M., Dascalu, M., Trausan-Matu, S., Chisu, L., & Simion, E. (2020).
Semantic recommendations and topic modeling based on the chronology of romanian literary
life. In International symposium on emerging technologies for education (pp. 164–174).

12

S-ar putea să vă placă și