Documente Academic
Documente Profesional
Documente Cultură
-Parsarea in NLP-
Profesor coordonator
Liviu P. Dinu
Student
Bibu Alexandru-Serafim
Ce este parsarea?
• Simplist vorbind, parsarea in NLP este procesul de determinare a structurii
sintactice a unui text, prin analizarea cuvintelor sale constituitive pe baza unei
gramatici.
• Structura sintactica se reprezinta in general sub forma unui arbore care
prezinta relatiile dintre cuvintele unei fraze analizate.
Arborele de parsare
Definitie
• Un arbore de parsare este un arbore cu radacina ordonat care reprezinta
structura sintactica a unei fraze in functie de o anumita gramatica
independenta de context.
Arborele este construit din marcatori de fraze (Phrase markers) si
cuvintele din fraze pentru nodurile interioare, respectiv pentru Frunze.
Marcatorii de fraze au fost instrodusi in gramatica generativ transformationala
reprezentand structura unei fraze aplicand reguli de structura a frazelor.
Exemplu arbore de parsare
• S – sentence (propozitie)
• N – noun (substantiv)
• VP – verb phrase (predicat)
• V – verb (verb)
• NP – noun phrase (subiect)
• D – determiner (determinant)
Parsarea
https://www.sketchengine.eu/penn-
treebank-tagset/
Stanford parser - rezumat
• Parserul Stanford are o acuratete buna, dar este posibila si o antrenare
specifica. Spre exemplu: texte pe domenii specifice. Informatii pentru cum
poti antrena un "tagger" pot fi gasite online: https://nlp.stanford.edu
/software/parser-faq.shtml#d
• Pe langa acuratetea si diversele optiuni privind datele de intrare,
precum si datele de iesire compatibilitatea acestuia cu instrumente
precum TregEx reprezinta un alt avantaj al Parserului Stanford. Astfel,
aplicatiile pot fi folosite pentru analiza statistica a arborelui.
Apache OpenNLP
• Apache OpenNLP este o librarie java open-source care este folosita pentru
analiza textului limbajului natural. OpenNLP ofera servicii precum:
tokenizare, segmentarea pe propozitii, impartirea pe parti de vorbire etc.
Apache OpenNLP - parsare
• Un aspect interesant al OpenNLP este ca poti specifica numarul de parsari
returnabil pentru o fraza data. Cum parserul este un model ML, sistemul poate
ajunge la mai multi potentiali candidati pentru parsarea corecta a frazei,
fiecare avand o probabilitate asociata.
Apache OpenNLP - parsare
Cererea unei parsari pentru "John loves Mary"