Bine ați venit la Scribd!

Top 3 topicuri

Task 2

Diaconescu Cosmin
Telecom Academy
Cerinta proiectului

Acest task o să fie compus dintr-o parte fixă și o parte în care fiecare va putea să își
etaleze creativitatea.

În ceea ce privește partea fixă, o să trebuiască să extrageți TOP 3 topicuri dintr-un anumit
post de Stackoverflow.

Sursa bazei de date a proiectului : https://www.kaggle.com/stackoverflow/stackoverflow

Observatii
1. Aceasta reprezinta o aplicatie in care va fi folosit algoritmul TF-IDF.
2. Cel mai important aspect in realizearea acestui task este prelucrarea cat mai buna a
textului.
3. Inainte de a afisa top 3 topicuri, textul a fost folosit pentru diverse aplicatii (grafic
frecvente, wordcloud etc)
4. Pentru a testa aceasta aplicatie, la sfarsit au fost introduse un titlu si un body care mai
apoi au fost prelucrate si din care am extras top 3 topicuri.
5. Pentru aceasta aplicatie, am folosit Anaconda - Jupyter Notebook.
Desfasurarea lucrarii

1. Dupa ce fisierul de tip csv a fost salvat in calculator, au fost alese doar coloanele de
interes, body si title.
2. Se poate observa faptul ca titlul ocupa doar 5961 randuri, in timp ce body-ul are 8993
randuri.
3. Prelucrarea textului este formata din 2 functii definite body_nlp si title_nlp prin care
dorim sa scapam de stop_words, sa aducem cuvintele la forma de baza din dictionar si sa
eliminam anumite grupuri precum: „<p>” , „</p>” etc.
4. Deoarece am intampinat anumite erori, coloanele body si title au fost transformate in
stringuri , iar mai apoi am adaugat in locul 1 si 3 coloanele noi (title_final2 si
body_final2) cu textul prelucrat.
5. In continuare, a fost realizat cate un wordcloud pentru cuvintele din titlu si mai apoi din
body.

Fig 1. WordCloud pentru cuvintele din coloana title_final2

Fig 2. WordCloud pentru cuvintele din coloana body_final2

6. Folosind libraria NLTK , am importat modulul FreqDist si am gasit top 12 cuvinte cu
frecventa cea mai mare pentru coloanele body_final2 si title_final2.
7. Cu ajutorul dataframe-ului din panda, am reusit sa punem aceste date sub forma de tabel.
8. Folosind seaborn, am realizat graficul frecventei cuvintelor.

9. Deoarece s-a cerut ca top 3 topicuri sa fie din body + text, am realizat o noua coloana in
care au fost concatenate datele din body_final2 si title_final2 cu denumirea title_body.
10. Din sklearn a fost importat modulul TfidfVectorizer pentru a afla direct scorul tf-idf. Am
antrenat modelul pe textul din title_body si am aflat topul celor mai importante cuvinte
care ar putea fi un topic pentru propozitiile cu indexul 0 si 1

tf_idf_scores tf_idf_scores

logparser 0.522309 analysis 0.416912

unix 0.241003 libfoo 0.351146

sql 0.231833 coverage 0.293971

11. Ultima etapa a constat in realizeaza unui titlu si a unui body nou pe care le-am presupus
introduse de la tastatura. ( Jupyter Notebook a avut ceva buguri in sensul in care folosind
input se bloca / nu mai rula deloc )
12. Acest titlu + body au fost prelucrate cu ajutorul functiilor precizate anterior si au fost
adaugate intr-o lista de tip array, care mai apoi a fost adaugata la lista principala . Noul
scor TF-IDF a fost astfel apelat pentru ultimul element al listei finale.

S-ar putea să vă placă și

It Ends with Us: A Novel
De la Everand
It Ends with Us: A Novel
Colleen Hoover
Evaluare: 4.5 din 5 stele
4.5/5 (5840)
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
De la Everand
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
Mark Manson
Evaluare: 4 din 5 stele
4/5 (5814)
The Perfect Marriage: A Completely Gripping Psychological Suspense
De la Everand
The Perfect Marriage: A Completely Gripping Psychological Suspense
Jeneva Rose
Evaluare: 4 din 5 stele
4/5 (1135)
The 7 Habits of Highly Effective People
De la Everand
The 7 Habits of Highly Effective People
Stephen R. Covey
Evaluare: 4 din 5 stele
4/5 (353)
The Art of War: A New Translation
De la Everand
The Art of War: A New Translation
Sun Tzu
Evaluare: 4 din 5 stele
4/5 (3045)
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
De la Everand
The Subtle Art of Not Giving a F*ck: A Counterintuitive Approach to Living a Good Life
Mark Manson
Evaluare: 4.5 din 5 stele
4.5/5 (20104)
The Handmaid's Tale
De la Everand
The Handmaid's Tale
Margaret Atwood
Evaluare: 4 din 5 stele
4/5 (13229)
Pride and Prejudice: Bestsellers and famous Books
De la Everand
Pride and Prejudice: Bestsellers and famous Books
Jane Austen
Evaluare: 4.5 din 5 stele
4.5/5 (20479)
Good Omens: A Full Cast Production
De la Everand
Good Omens: A Full Cast Production
Neil Gaiman
Evaluare: 4.5 din 5 stele
4.5/5 (10971)
Remarkably Bright Creatures: A Novel
De la Everand
Remarkably Bright Creatures: A Novel
Shelby Van Pelt
Evaluare: 4.5 din 5 stele
4.5/5 (5777)
Never Split the Difference: Negotiating As If Your Life Depended On It
De la Everand
Never Split the Difference: Negotiating As If Your Life Depended On It
Chris Voss
Evaluare: 4.5 din 5 stele
4.5/5 (3313)
And Then There Were None
De la Everand
And Then There Were None
Agatha Christie
Evaluare: 4.5 din 5 stele
4.5/5 (9005)
The Hobbit
De la Everand
The Hobbit
J. R. R. Tolkien
Evaluare: 4.5 din 5 stele
4.5/5 (25200)
Art of War: The Definitive Interpretation of Sun Tzu's Classic Book of Strategy
De la Everand
Art of War: The Definitive Interpretation of Sun Tzu's Classic Book of Strategy
Stephen F. Kaufman
Evaluare: 4 din 5 stele
4/5 (3321)
The 7 Habits of Highly Effective People: The Infographics Edition
De la Everand
The 7 Habits of Highly Effective People: The Infographics Edition
Stephen R. Covey
Evaluare: 4 din 5 stele
4/5 (2487)
Freakonomics Rev Ed
De la Everand
Freakonomics Rev Ed
Steven D. Levitt
Evaluare: 4 din 5 stele
4/5 (7879)
Habit 6 Synergize: The Habit of Creative Cooperation
De la Everand
Habit 6 Synergize: The Habit of Creative Cooperation
Stephen R. Covey
Evaluare: 4 din 5 stele
4/5 (2499)
The Hobbit
De la Everand
The Hobbit
J. R. R. Tolkien
Evaluare: 4.5 din 5 stele
4.5/5 (24589)
Habit 1 Be Proactive: The Habit of Choice
De la Everand
Habit 1 Be Proactive: The Habit of Choice
Stephen R. Covey
Evaluare: 4 din 5 stele
4/5 (2559)
Habit 3 Put First Things First: The Habit of Integrity and Execution
De la Everand
Habit 3 Put First Things First: The Habit of Integrity and Execution
Stephen R. Covey
Evaluare: 4 din 5 stele
4/5 (2508)
American Gods: The Tenth Anniversary Edition
De la Everand
American Gods: The Tenth Anniversary Edition
Neil Gaiman
Evaluare: 4 din 5 stele
4/5 (12956)
American Gods [TV Tie-In]: A Novel
De la Everand
American Gods [TV Tie-In]: A Novel
Neil Gaiman
Evaluare: 4 din 5 stele
4/5 (12556)
The 7 Habits of Highly Effective People
De la Everand
The 7 Habits of Highly Effective People
Stephen R. Covey
Evaluare: 4 din 5 stele
4/5 (2571)
How To Win Friends And Influence People
De la Everand
How To Win Friends And Influence People
Dale Carnegie
Evaluare: 4.5 din 5 stele
4.5/5 (6699)
Good Omens
De la Everand
Good Omens
Neil Gaiman
Evaluare: 4.5 din 5 stele
4.5/5 (12072)
Wuthering Heights (Seasons Edition -- Winter)
De la Everand
Wuthering Heights (Seasons Edition -- Winter)
Emily Brönte
Evaluare: 4 din 5 stele
4/5 (9975)
The Iliad: A New Translation by Caroline Alexander
De la Everand
The Iliad: A New Translation by Caroline Alexander
Homer
Evaluare: 4 din 5 stele
4/5 (5734)