TendințeLiterare DinicaIonRobert SAIW

UNIVERSITATEA POLITEHNICA DIN BUCURES, TI
FACULTATEA DE AUTOMATICĂ S, I CALCULATOARE

DEPARTAMENTUL DE CALCULATOARE
Computer Science - Logo
HBFX
Computer Science
& Engineering
Department
Computer Science
& Engineering
Department
PROIECT SAIW
Tendint, e Literare
Dinică Robert
INDRUMĂTORI: Laurent, iu Neagu
BUCURES, TI
2023
CONTENTS
Abstract v
1 Introduction 1
1.1 Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Problemă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Obiective . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 State of the art 2
3 Setul de date 4
4 Modele 5
4.1 Latent Dirichlet Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2 BertTopic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
5 Rezultate 7
5.1 Rezultate LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5.2 Rezultate BertTopic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
6 Concluzii s, i Direct, ii Viitoare 11
References 12
i
ABSTRACT
În contextul domeniului de Învăt, are Automată, Topic Modelling este o tema extrem de popu-
lară care are rolul să evident, ieze, pe baza unui anumit set de documente, principalele subiecte
prezente ı̂n acestea ı̂n formatul unor topice astfel ı̂ncât să avem o viziune mai clară s, i sim-
plificată asupra informat, iilor care se regăsesc ı̂n aceste texte. Subiectul de Tendint, e Literare,
abordat ı̂n această lucrare, poate fi interpretat ca un subiect de Topic Modelling, astfel cele
două modele prezentate ı̂n aceasta lucrare sunt bazate pe Latent Dirichlet Allocation (LDA)
s, i pe BertTopic, un model special conceput pentru subiectul de Topic Modelling.
v
1 INTRODUCTION
1.1 Context
Topic Modelling este un subiect din domeniul Procesării Limbajului care are la baza ı̂nvăt, area
nesupervizată s, i presupune analizarea unui set de documente s, i determinarea pe baza acestora
a unui set de documente care să sumarizeze principalele informat, ii prezentate ı̂n textele anal-
izate. Dată fiind utilitatea practică pe care aceste subiect o are au fost dezvoltate nenumărate
modele bazate pe Învăt, area Automată cele mai cunoscute fiind cele care utilizează LDA si
Matrix Factorization.
1.2 Problemă
Proiectul de fat, ă are ca scop descoperirea tendint, elor literare prezente de-a lungul timpului ı̂n
texte vechi din literatura română. Acest temă poate fi vazută ca un subiect de Topic Modeling.
Topic modeling este o metodă de ı̂nvăt, are nesupervizată care constă ı̂n scanarea unui set de
documente s, i găsirea de structuri similare care apoi pot fi grupate pentru a descrie cât mai
bine setul de documente. Deoarece topic modeling este o metodă de ı̂nvăt, are nesupervizată,
nu poti avea sigurant, a că rezultatele obt, inute sunt cele mai bune, de aceea, de cele mai
multe ori, se optează pentru antrenarea unui unui model pentru clasificarea de topice. Topic
modeling presupune, intr-un mod simplificat, numararea cuvintelor din documente s, i gruparea
cuvintelor cu o structură similară pentru inferarea de topice prezente ı̂n date nestructurate.
1.3 Obiective
Lucrarea de fat, ă are ca scop prezentarea a două modele pentru rezolvarea subiectului de
Tendint, e Literare, scopul fiind pus pe analizarea modulu ı̂n care topicele găsite sunt distribuite
de-a lungul timpului. De asemenea, un alt scop este dat analizarea rezultatelor pe care modelul
bazat pe BertTopic le are ı̂n comparat, ie cu modelul care utilizează LDA.
1
2 STATE OF THE ART
Cea mai populară metodă pentru subiectul de Topic Modeling este LDA (Latent Dirichlet
allocation). Acest model are la bază două principii:
• Fiecare document este un mix de topice
• Fiecare topic este un mix de cuvinte
LDA este un algoritm care constă ı̂n estimarea celor două principii simultan. găsind grupul
de cuvinte care sunt asociate cu fiecare topic, ı̂n acelas, i timp, descoperind grupul de topice
care descriu cel mai bine un document. Din punct de vedere matematic, LDA este o tehnică
de factorizare de matrici. Astfel, ı̂n cazul acestui algoritm se face presupunerea că un set de
documente poate fi reprezentat ca o matrice document termen (fiecare cuvant ı̂n ce document
apare).
Pentru subiectul de Topic Modeling mai sunt cunoscute s, i alte metode, ca de exemplu: Term
Frequency and Inverse Document Frequency, NonNegative Matrix Factorization. Odată cu
aparit, ia Bert Devlin et al. (2018), model care se poate folosi in contextual a foarte multe
subiecte din domeniul Procesării Limbajului Natural cu rezultate foarte bune, au fost propuse si
modele pentru Bert care pot fi folosite ı̂n contextual subiectului de Topic Modeling. Un astfel
de model este BertTopic Grootendorst (2022), care se bazează pe arhitectura Transformer
s, i TF-IDF (Term Frequency-Inverse Document Frequency). Proiectul de fat, ă are ca scop
determinarea celor mai populare topice prezente ı̂n documente literare vechi care apart, in
literaturii române. Astfel se urmares, te obt, inerea unei distribut, ii a celor mai populare topicede-
a lungul unei perioade de timp. În Figura 1 se poat observa cele mai populare topice pe o
perioadăde timp de 50 de ani la o diferent, ă de 5 ani. În figura prezentată mai jos s-au folosit
date preluate din Chronology of Romanian Literary Life (CVLR) Neagu et al. (2020).
2
Figure 1: Distribuit, ia topicelor de-a lungul timpului prezente ı̂n CVLR (Chronology of Roma-
nian Literary Life)
3
3 SETUL DE DATE
Setul de date constă din 772 de documente cupinse ı̂ntre secolul IV s, i secolul XIX. În Figura
2 este prezentată distribut, ia documentelor (textelor) ı̂n funct, ie de secol.
Figure 2: Distribut, ia documentelor ı̂n funct, ie de secol
4
4 MODELE
4.1 Latent Dirichlet Allocation
Modelul de fata este bazat pe Latent Dirichlet Allocation. Astfel, s-a folosit LdaMulticore din
biblioteca gensim, care este un model paralelizat pentru LDA. Acest model primes, te urmatorii
parametrii:
• corpus (un stream de vectori de documente de forma: (num-documents, num-terms)))
• num topics (numarul de topice catre trbuie extrase din corpus)
• id2word (o mapare intre id-urile cuvintelor si cuvinte, folosit pentru a determina dimen-
siunea vocabularului, cat si pentru debugging si printarea topicelor)
• workers (numarul de procese care vor fi folosite pentru paralelizare)
• chunksize (numarul de documente care sa fie folosit in fiecare chunk de antrenare)
• passes (numarul de treceri prin corpus in timpul antrenarii)
• alpha (Parametru care estimeaza apriori distributia document topic)
• eta (Parametru care estimeaza apriori distributia topic cuvant)
Pentru evaluarea modelului s-a folosit metrica de coherance. Prin aceasta metrica se verifica
daca un suport de afirmatii coerente intre ele. In contextul modelului de fata s-a folosit cv,
care se bazeaza pe normalized pointwise mutual information (NPMI) si pe cosine similarity.
Pentru a determina cel mai bun model s-a folosit grid search pentru urmatorii hiperparametrii:
• num-topics
• alpha
• eta
Astfel, cel mai bun model are urmatori hiperparametrii: num topics: 8, alpha: 0.11, eta: 0.91.
5
4.2 BertTopic
Modelele clasice pentru subiectul de Topic Modelling sunt LDA s, i NMF care, cu toate ca
au rezultate bune, sunt uneori ineficiente, fiind complicat să determinăm valori potrivite
pentru hiperparametrii. De asemnea, t, inând cont de rezultatele foarte bune pe care le are
BERT ı̂n foarte multe probleme din domeniul Procesării Limbajului Natural a apărut ideea
de a utiliza BERT s, i ı̂n cazul subiectului de Topic Modelling. Din punct de vedere arhi-
tectural, primul pas ı̂n cazul modelului BertTopic este determinarea reprezentării vectoriale
a cuvintelor (cunoscută s, i sub denumirea de embeddings), care presupune convertirea tex-
telor ı̂n format numeric. Astfel, pentru această etapă este folosit un model de BERT, care
are rolul de a determina reprezentările vectoriale ale cuvintelor ı̂n funct, ie de context. Cel
de-al doilea pas este cel de clusterizare, care presupune gruparea documentelor cu topice
similare ı̂n acelas, i cluster astfel ı̂ncât să se poată găsi topicele din clusterele create. Pentru
această etapă sunt folosit, i algoritmii UMAP si HDBSCAN. Următoarea etapă este reprezen-
tată de crearea topicelor. Astfel, ı̂n cadrul acestei etape este folosită o versiune de TF-IDF
care să permită extragerea elementelor care fac fiecare set de documente dintr-un cluster
unice. Ultimul pas este reprezentat de reducerea numărului de topice. Acest pas este real-
izat prin modificarea hiperparametrului min cluster size din HDBSCAN. BertTopic este con-
stuit ca o bibliotecă s, i expune o serie de funct, ii care pot fi folosite pentru dezvoltarea unui
model pentru Topic Modelling. Astfel, init, ilalizarea modelului de BertTopic se realizează ı̂n
felul următor: BERTopic(verbose=True, n gram range=(1,3), embedding model=”sentence-
transformers/paraphrase-multilingual-mpnet-base-v2”, nr topics= 8), unde embedding model
reprezintă tipului modelului de transformers folosit, iar nr topics reprezintă numarul de top-
ice care se dores, te a fi creat. Pentru a face fit modelului init, ializat se apelează metoda
fit transform, care primes, te ca parametru documentele pentru care se dores, te determinarea
topicelor. Pentru vizualizarea topicelor se poate folosi metoda vizualize topics. În cazul mod-
elului folosit ı̂n acest proiect pentru embedding model a fost utilizată versiunea: sentence-
transformers/paraphrase-multilingual-mpnet-base-v2, iar pentru nr topics s-a utilizat valoarea
8.
6
5 REZULTATE
5.1 Rezultate LDA
Pentru vizulizarea intr-un mod interactiv a topicelor s-a folosit biblioteca pyLDAvis. In Figura
3 este prezentat rezultatul aplicarii pyLDAvis. Astfel, fiecare cerc reprezinta un topic,iar cu
cat cercul este mai mare cu atat mai multe documente din corpus sunt despre acel topic.
Liniile albastre reprezinta frecventa cuvintelor din topicul respectiv in corpus, iar liniile rosi
reprezinta de cate ori un cuvant a fost generat de un anumit topic. In cazul in care nu este
selectat un anumit topic liniile albastre vor reprezenta cele mai frecvente cuvinte din corpus.
Figure 3: Vizualizarea topicelor prin intermediul pyLDAvis
Valoarea obtinuta de cel mai bun model pentru metrica de coherance este 0.364. Cont, inutul
topicelor ı̂n funct, ie de ponderile cuvintelor sunt prezentate ı̂n Figura 4.
5.2 Rezultate BertTopic
În continuare vor fi prezentate rezultatele obt, inute de modelul bazat pe BertTopic pentru
subiectul de Tendint, e Literare pentru texte literare vechi. Astfel, ı̂n Figura 5 sunt prezentate
topicele create s, i numărul de documente ı̂n care aceste topice se regăsesc.
7
Figure 4: Cont, inutul topicelor ı̂n funct, ie de ponderile cuvintelor
Figure 5: Topicele create s, i distribut, ia acestora ı̂n documente
În Figura 6 este prezentată harta distant, ei ı̂ntre tropice, care permite o vizualizare interactivă a
topicelor create. Dat fiind faptul ca scopul acestui proiect este acela de a determina tendint, ele
literare de-a lungul unei perioade de timp, in Figura 7 este prezentată evolut, ia topicelor de-a
lungul timpului, ı̂ncepând din secolul 13 s, i până ı̂n secolul 19. În Figura 8 pentru fiecare topic
sunt prezentate cele mai relevante cuvinte care se regăsesc ı̂n acel topic.
Pentru evaluarea rezultatelor obt, inute de modelul bazat pe BertTopic s-a utilizat metrica
coherence score, iar rezultatul obt, inut este: 0.635.
8
Figure 6: Harta distant, ei ı̂ntre topice
Figure 7: Evolut, ia topicelor de-a lungul timpului
9
Figure 8: Cuvintele cele mai relevante ı̂n funct, ie de topic
10
6 CONCLUZII S, I DIRECT, II VIITOARE
Având ı̂n vedere rezultatele obt, inute pentru metrica de coherence score atât pentru modelul
bazat pe LDA, care a obt, inut valoarea 0.364, cât s, i pentru modelul care are la bază BertTopic
se poate observa că cel din urmă are o performant, ă mai bună. De asemenea, BertTopic,
spre deosebire de modele pentru subiectul de Topic Modelling, oferă, pe lângă performant, e
mai bune, s, i o mai mare flexibilitate, fiind foarte us, or sa utilizăm un model de embedding
pre-antrenat pentru o anumită limbă sau pentru un anumit domeniu.
11
REFERENCES
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep
bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 .
Grootendorst, M. (2022). Bertopic: Neural topic modeling with a class-based tf-idf procedure.
arXiv preprint arXiv:2203.05794 .
Neagu, L.-M., Cotet, T.-M., Dascalu, M., Trausan-Matu, S., Chisu, L., & Simion, E. (2020).
Semantic recommendations and topic modeling based on the chronology of romanian literary
life. In International symposium on emerging technologies for education (pp. 164–174).
12

TendințeLiterare DinicaIonRobert SAIW

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

TendințeLiterare DinicaIonRobert SAIW

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITATEA POLITEHNICA DIN BUCURES, TI

FACULTATEA DE AUTOMATICĂ S, I CALCULATOARE

INDRUMĂTORI: Laurent, iu Neagu

2 State of the art 2

4.1 Latent Dirichlet Allocation . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

5.1 Rezultate LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

5.2 Rezultate BertTopic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

6 Concluzii s, i Direct, ii Viitoare 11

• Fiecare document este un mix de topice

• Fiecare topic este un mix de cuvinte

Figure 2: Distribut, ia documentelor ı̂n funct, ie de secol

• corpus (un stream de vectori de documente de forma: (num-documents, num-terms)))

• num topics (numarul de topice catre trbuie extrase din corpus)

• workers (numarul de procese care vor fi folosite pentru paralelizare)

• chunksize (numarul de documente care sa fie folosit in fiecare chunk de antrenare)

• passes (numarul de treceri prin corpus in timpul antrenarii)

• alpha (Parametru care estimeaza apriori distributia document topic)

• eta (Parametru care estimeaza apriori distributia topic cuvant)

Figure 3: Vizualizarea topicelor prin intermediul pyLDAvis

5.2 Rezultate BertTopic

Figure 5: Topicele create s, i distribut, ia acestora ı̂n documente

Figure 7: Evolut, ia topicelor de-a lungul timpului

S-ar putea să vă placă și