DinicaIonRobert Saiw Etapa2

Universitatea Politehnica din București
Facultatea de Automatică și Calculatoare

Departamentul de Calculatoare
TOPIC MODELING
Tendinte literare
Etapa 2
Ion-Robert Dinică
SAIW
București 2022
Content
Introducere 3
Preprocesarea datelor 3
Arhitectura modelului 4
Rezultate 4
Bibliografie 6
Introducere
Aceasta lucrare are ca scop prezentarea implementarii si a rezultatelor obtinute de un prim

model in contextul subiectului de Tendinte Literare (pe texte literare vechi). Modelul de fata
se bazeaza pe Latent Dirichlet Allocation (LDA) folosind TF-IDF.
Corpusul utilizat consta din 772 de texte literare vechi distribuite de-a lungul unei perioade
cuprinse intre secolul 4 si 19. Din aceste date au fost eliminate 3 documente care reprezentau
anomalii, astfel incat setul de date final este compus din 769 de documente, iar perioda in
care acestea au fost scrise este cuprinsa intre secolul 13 si secolul 19.
Figura 1. Distributia documentelor inainte de preprocesare
Preprocesarea datelor
Pentru a aduce datele intr-un format care sa permita aplicarea modelului mentionat anterior
s-au efectuat urmatorii pasi:
Tokenizare: Textele au fost impartite in propozitii, iar propozitiile in cuvinte. De asemenea, au

fost eliminate semnele de punctuatie si cuvintele au fost transformate in litere mici. Cuvintele
care aveau mai putin de 3 litere au fost eliminate.
Lematizare: Cuvintele la persoana a treia au fost trecute la persoana intai, iar verbele la
trecut si viitor au fost schimbate la prezent.
Stematizare: Cuvintele au fost trecute la forma lor de baza.
Arhitectura modelului
Modelul de fata este bazat pe Latent Dirichlet Allocation. Astfel, s-a folosit LdaMulticore[1]
din biblioteca gensim, care este un model paralelizat pentru Lda. Acest model primeste
urmatorii parametrii:
● corpus (un stream de vectori de documente de forma: (num_documents, num_terms)))

● num_topics (numarul de topice catre trbuie extrase din corpus)
● id2word (o mapare intre id-urile cuvintelor si cuvinte, folosit pentru a determina
dimensiunea vocabularului, cat si pentru debugging si printarea topicelor)
● workers (numarul de procese care vor fi folosite pentru paralelizare)
● chunksize (numarul de documente care sa fie folosit in fiecare chunk de antrenare)
● passes (numarul de treceri prin corpus in timpul antrenarii)
● alpha (Parametru care estimeaza apriori distributia document-topic)
● eta (Parametru care estimeaza apriori distributia topic-cuvant)
Pentru evaluarea modelului s-a folosit metrica de coherance. Prin aceasta metrica se verifica
daca un suport de afirmatii coerente intre ele. In contextul modelului de fata s-a folosit c_v,
care se bazeaza pe normalized pointwise mutual information (NPMI) si pe cosine similarity.
Pentru a determina cel mai bun model s-a folosit grid search pentru urmatorii hiperparametrii:
● num_topics
● alpha
● eta
Astfel, cel mai bun model are urmatori hiperparametrii: num_topics: 8, alpha: 0.11, eta: 0.91.
Rezultate
Pentru vizulizarea intr-un mod interactiv a topicelor s-a folosit biblioteca pyLDAvis. In
Figura 2 este prezentat rezultatul aplicarii pyLDAvis. Astfel, fiecare cerc reprezinta un topic,
iar cu cat cercul este mai mare cu atat mai multe documente din corpus sunt despre acel topic.
Liniile albastre reprezinta frecventa cuvintelor din topicul respectiv in corpus, iar liniile rosi
reprezinta de cate ori un cuvant a fost generat de un anumit topic. In cazul in care nu este
selectat un anumit topic liniile albastre vor reprezenta cele mai frecvente cuvinte din corpus.
Figura 2. Vizualizarea topicelor prin intermediul pyLDAvis
Valoarea obtinuta de cel mai bun model pentru metrica de coherance este 0.361.
Continutul topicelor in functie de ponderile cuvintelor sunt prezentate in Figura 3.
Figura 3. Continutul topicelor in functie de ponderile cuvintelor

Directii viitoare
Pentru etapa urmatoare se va implementa un nou model bazat pe Bidirectional Encoders from
Transformers (BERT), numit BertTopic, care este special conceput pentru subiectul de Topic
Modeling. De asemenea, se va realiza evaluarea modelului si o analiza comparativa cu
modelul bazat pe LDA.
Bibliografie
1. https://radimrehurek.com/gensim/models/ldamulticore.html

DinicaIonRobert Saiw Etapa2

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

DinicaIonRobert Saiw Etapa2

Încărcat de

Drepturi de autor:

Formate disponibile

Universitatea Politehnica din București

Facultatea de Automatică și Calculatoare

Aceasta lucrare are ca scop prezentarea implementarii si a rezultatelor obtinute de un prim

Figura 1. Distributia documentelor inainte de preprocesare

Tokenizare: Textele au fost impartite in propozitii, iar propozitiile in cuvinte. De asemenea, au

Stematizare: Cuvintele au fost trecute la forma lor de baza.

● corpus (un stream de vectori de documente de forma: (num_documents, num_terms)))

Figura 3. Continutul topicelor in functie de ponderile cuvintelor

S-ar putea să vă placă și