Sunteți pe pagina 1din 6

Universitatea Politehnica din București

Facultatea de Automatică și Calculatoare


Departamentul de Calculatoare

TOPIC MODELING
Tendinte literare

Etapa 2

Ion-Robert Dinică
SAIW

București 2022
Content

Introducere 3
Preprocesarea datelor 3
Arhitectura modelului 4
Rezultate 4
Bibliografie 6
Introducere

Aceasta lucrare are ca scop prezentarea implementarii si a rezultatelor obtinute de un prim


model in contextul subiectului de Tendinte Literare (pe texte literare vechi). Modelul de fata
se bazeaza pe Latent Dirichlet Allocation (LDA) folosind TF-IDF.
Corpusul utilizat consta din 772 de texte literare vechi distribuite de-a lungul unei perioade
cuprinse intre secolul 4 si 19. Din aceste date au fost eliminate 3 documente care reprezentau
anomalii, astfel incat setul de date final este compus din 769 de documente, iar perioda in
care acestea au fost scrise este cuprinsa intre secolul 13 si secolul 19.

Figura 1. Distributia documentelor inainte de preprocesare

Preprocesarea datelor

Pentru a aduce datele intr-un format care sa permita aplicarea modelului mentionat anterior
s-au efectuat urmatorii pasi:

Tokenizare: Textele au fost impartite in propozitii, iar propozitiile in cuvinte. De asemenea, au


fost eliminate semnele de punctuatie si cuvintele au fost transformate in litere mici. Cuvintele
care aveau mai putin de 3 litere au fost eliminate.
Lematizare: Cuvintele la persoana a treia au fost trecute la persoana intai, iar verbele la
trecut si viitor au fost schimbate la prezent.

Stematizare: Cuvintele au fost trecute la forma lor de baza.

Arhitectura modelului

Modelul de fata este bazat pe Latent Dirichlet Allocation. Astfel, s-a folosit LdaMulticore[1]
din biblioteca gensim, care este un model paralelizat pentru Lda. Acest model primeste
urmatorii parametrii:

● corpus (un stream de vectori de documente de forma: (num_documents, num_terms)))


● num_topics (numarul de topice catre trbuie extrase din corpus)
● id2word (o mapare intre id-urile cuvintelor si cuvinte, folosit pentru a determina
dimensiunea vocabularului, cat si pentru debugging si printarea topicelor)
● workers (numarul de procese care vor fi folosite pentru paralelizare)
● chunksize (numarul de documente care sa fie folosit in fiecare chunk de antrenare)
● passes (numarul de treceri prin corpus in timpul antrenarii)
● alpha (Parametru care estimeaza apriori distributia document-topic)
● eta (Parametru care estimeaza apriori distributia topic-cuvant)

Pentru evaluarea modelului s-a folosit metrica de coherance. Prin aceasta metrica se verifica
daca un suport de afirmatii coerente intre ele. In contextul modelului de fata s-a folosit c_v,
care se bazeaza pe normalized pointwise mutual information (NPMI) si pe cosine similarity.
Pentru a determina cel mai bun model s-a folosit grid search pentru urmatorii hiperparametrii:
● num_topics
● alpha
● eta
Astfel, cel mai bun model are urmatori hiperparametrii: num_topics: 8, alpha: 0.11, eta: 0.91.

Rezultate

Pentru vizulizarea intr-un mod interactiv a topicelor s-a folosit biblioteca pyLDAvis. In
Figura 2 este prezentat rezultatul aplicarii pyLDAvis. Astfel, fiecare cerc reprezinta un topic,
iar cu cat cercul este mai mare cu atat mai multe documente din corpus sunt despre acel topic.
Liniile albastre reprezinta frecventa cuvintelor din topicul respectiv in corpus, iar liniile rosi
reprezinta de cate ori un cuvant a fost generat de un anumit topic. In cazul in care nu este
selectat un anumit topic liniile albastre vor reprezenta cele mai frecvente cuvinte din corpus.
Figura 2. Vizualizarea topicelor prin intermediul pyLDAvis
Valoarea obtinuta de cel mai bun model pentru metrica de coherance este 0.361.
Continutul topicelor in functie de ponderile cuvintelor sunt prezentate in Figura 3.

Figura 3. Continutul topicelor in functie de ponderile cuvintelor


Directii viitoare

Pentru etapa urmatoare se va implementa un nou model bazat pe Bidirectional Encoders from
Transformers (BERT), numit BertTopic, care este special conceput pentru subiectul de Topic
Modeling. De asemenea, se va realiza evaluarea modelului si o analiza comparativa cu
modelul bazat pe LDA.

Bibliografie
1. https://radimrehurek.com/gensim/models/ldamulticore.html

S-ar putea să vă placă și