Documente Academic
Documente Profesional
Documente Cultură
DinicaIonRobert Saiw Etapa2
DinicaIonRobert Saiw Etapa2
TOPIC MODELING
Tendinte literare
Etapa 2
Ion-Robert Dinică
SAIW
București 2022
Content
Introducere 3
Preprocesarea datelor 3
Arhitectura modelului 4
Rezultate 4
Bibliografie 6
Introducere
Preprocesarea datelor
Pentru a aduce datele intr-un format care sa permita aplicarea modelului mentionat anterior
s-au efectuat urmatorii pasi:
Arhitectura modelului
Modelul de fata este bazat pe Latent Dirichlet Allocation. Astfel, s-a folosit LdaMulticore[1]
din biblioteca gensim, care este un model paralelizat pentru Lda. Acest model primeste
urmatorii parametrii:
Pentru evaluarea modelului s-a folosit metrica de coherance. Prin aceasta metrica se verifica
daca un suport de afirmatii coerente intre ele. In contextul modelului de fata s-a folosit c_v,
care se bazeaza pe normalized pointwise mutual information (NPMI) si pe cosine similarity.
Pentru a determina cel mai bun model s-a folosit grid search pentru urmatorii hiperparametrii:
● num_topics
● alpha
● eta
Astfel, cel mai bun model are urmatori hiperparametrii: num_topics: 8, alpha: 0.11, eta: 0.91.
Rezultate
Pentru vizulizarea intr-un mod interactiv a topicelor s-a folosit biblioteca pyLDAvis. In
Figura 2 este prezentat rezultatul aplicarii pyLDAvis. Astfel, fiecare cerc reprezinta un topic,
iar cu cat cercul este mai mare cu atat mai multe documente din corpus sunt despre acel topic.
Liniile albastre reprezinta frecventa cuvintelor din topicul respectiv in corpus, iar liniile rosi
reprezinta de cate ori un cuvant a fost generat de un anumit topic. In cazul in care nu este
selectat un anumit topic liniile albastre vor reprezenta cele mai frecvente cuvinte din corpus.
Figura 2. Vizualizarea topicelor prin intermediul pyLDAvis
Valoarea obtinuta de cel mai bun model pentru metrica de coherance este 0.361.
Continutul topicelor in functie de ponderile cuvintelor sunt prezentate in Figura 3.
Pentru etapa urmatoare se va implementa un nou model bazat pe Bidirectional Encoders from
Transformers (BERT), numit BertTopic, care este special conceput pentru subiectul de Topic
Modeling. De asemenea, se va realiza evaluarea modelului si o analiza comparativa cu
modelul bazat pe LDA.
Bibliografie
1. https://radimrehurek.com/gensim/models/ldamulticore.html