Sunteți pe pagina 1din 23

PLNTA_7 Prelucrarea limbajului

natural scris (text)

• Prelucrarea limbajului natural (PLN)(Natural Language Processing) reprezinta zona


aplicativă a osaturii teoretice constituite de lingvistica computationala.
• PLN constituie acea parte a tehnicii de calcul si a inteligentei artificiale care se ocupa
de studiul limbilor umane si prin metode specifice ajuta o masina sa citeasca un
text. In acelasi timp constituie baza atat pentru tehnologia limbajului natural (Natural
LanguageTechnology) cat si pentru tehnologia limbajului uman (Human Language
Technology).
• In societatea de azi comunicarea, prin care se schimba si se partajeaza informatii,
este de mare importanta. Comunicarea se realizeaza prin limbaj, structurat in diferite
limbi, fiecare cu alfabetul, dictionarul si gramatica proprie.
• Conform estimarilor, din datele transmise pentru comunicare pe WhatsApp, Email,
Facebook, Instagram numai 20% sunt structurate, restul constituie texte, total
nestructurate. Pentru a obtine informatii din aceste texte trebuie facuta o analiza a
lor, in forma de Text Mining (Minertul= saparea in profunzime in text) sau mai simplu
de PLN ca parte a Text Mining.

1
Tehnologiile limbajului scris. Prelucrari
subsintactice

Analiza si intelegerea limbajului scris presupune un sir de prelucrari


subsintactice si anume:
• Determinarea granitelor de frază
• Determinarea granițelor de propoziții
• Stabilirea unitatilor lexicale
Determinarea partilor de vorbire şi marcarea morfologică
• Determinarea lemei; lema este radacina cuvantului
• Evidentierea numelor de entităţi
• Evidentierea grupurilor (nominale, verbale, prepoziţionale etc.)
atracţiile lexicale (colocaţii)

2
Delimitarea frazelor, propozitiilor si
cuvintelor

• Născut pe bazele Colegiului Regal de Chimie, (RCC) fondat în


1845, Imperial College, una dintre universitatile din lume care sunt
permanent clasificate pe locuri fruntase, a ajuns la forma actuală în
1907, când a înglobat mai multe institute de studii superioare.
• Vreme de un secol, din 1908 până în 2007, a făcut parte din
University of London, iar de treisprezece ani există sub titulatura
actuală. Dezvoltarea sa pare să nu se fi oprit nici astăzi, caci in1998
s-au deschis porțile lui Imperial College School of Medicine, iar în
2004 a apărut Imperial College Business School.
• În urmă cu aproape doua sute de ani, vocabula „Imperial” nu zgâria
nicio ureche. Astăzi, ea zdrelește sensibilitatea progresiștilor de
toate nuanțele și căprăriile.

3
Determinarea partilor de vorbire,
marcarea morfologică si lema

Astăzi, ea zdrelește sensibilitatea progresiștilor de toate


nuanțele și căprăriile.
• Astăzi, adverb
• Ea, pronume personal
• Zdrelește, verb a zdreli
• Sensibilitatea, substantiv sensibilitate
• Progresiștilor, substantiv progresist
• De. prepozitie
• Toate, numeral adjectival Tot
• Nuanțele, substantiv nuanța
• Si, conjunctie
• Căprăriile, substantiv căprărie
4
Entitati cu nume

• Născut pe bazele Colegiului Regal de Chimie, (RCC) fondat în


1845, Imperial College, una dintre universitatile din lume care sunt
permanent clasificate pe locuri fruntase, a ajuns la forma actuală în
1907, când a înglobat mai multe institute de studii superioare.
• Vreme de un secol, din 1908 până în 2007, a făcut parte din
University of London, iar de treisprezece ani există sub titulatura
actuală. Dezvoltarea sa pare să nu se fi oprit nici astăzi, caci in1998
s-au deschis porțile lui Imperial College School of Medicine, iar în
2004 a apărut Imperial College Business School.
• În urmă cu aproape doua sute de ani, vocabula „Imperial” nu zgâria
nicio ureche. Astăzi, ea zdrelește sensibilitatea progresiștilor de
toate nuanțele și căprăriile.
• S-au marcat ca entitati cu nume, nume proprii, prescurtari, date
calendaristice
5
Evidentierea gruparilor nominale
• Născut pe bazele Colegiului Regal de Chimie, (RCC) fondat în
1845, Imperial College, una dintre universitatile din lume care sunt
permanent clasificate pe locuri fruntase, a ajuns la forma actuală în
1907, când a înglobat mai multe institute de studii superioare.
• Vreme de un secol, din 1908 până în 2007, a făcut parte din
University of London, iar de treisprezece ani există sub titulatura
actuală. Dezvoltarea sa pare să nu se fi oprit nici astăzi, caci in1998
s-au deschis porțile lui Imperial College School of Medicine, iar în
2004 a apărut Imperial College Business School.
• În urmă cu aproape doua sute de ani, vocabula „Imperial” nu zgâria
nicio ureche. Astăzi, ea zdrelește sensibilitatea progresiștilor de
toate nuanțele și căprăriile.
• S-au marcat ca grupari nominale succesiuni de substantive
legate ca inteles
6
Tehnologiile limbajului scris. Prelucrari
sintactice

• formalizari gramaticale, care au in vedere


determinarea rolului sintactic al cuvintelor in propozitie.
• parsarea, care determina structura sintactica a frazei
• dezambiguizare, care stabileste rolul sintactic adevarat
al cuvintelor in propozitie

7
Analiza sintactica a propozitiilor
Formalizari gramaticale

• Astăzi, ea zdrelește sensibilitatea progresiștilor de toate


nuanțele și căprăriile.
• Astazi, complement circumstantial de timp
• Ea, subiect
• Zdreleste, predicat
• Sensibilitatea, complement direct
• Progresistilor, complement indirect
• Toate, atribut adjectival
• Nuantele atribut substantival
• Caprariile atribut substantival
8
Parsing (analiza sintactica)

• Născut pe bazele Colegiului Regal de Chimie, (RCC) fondat în


1845, Imperial College, una dintre universitatile din lume care sunt
permanent clasificate pe locuri fruntase, a ajuns la forma actuală în
1907, când a înglobat mai multe institute de studii superioare.
• Născut pe bazele Colegiului Regal de Chimie, (RCC) fondat în
1845, Imperial College, a ajuns la forma actuală în 1907, propozitie
principala
• una dintre universitatile din lume care sunt permanent clasificate pe
locuri fruntase, prop. secundara atributiva
• când a înglobat mai multe institute de studii superioare prop.
secundara complementara circumstantiala de timp

9
Dezambiguizare sintactica

Maria priveşte calul cu Maria priveşte calul cu


ochelari. ochelari.

• Maria, subiect • Maria, subiect


• Priveste, predicat • Priveste, predicat
• Calul, complement direct • Calul, complement direct
• Cu ochelari, complement • Cu ochelari, atribut
indirect substantival

10
Terminologii specifice

• Tokenizare = evidentierea granitelor dintre unitatile lexicale


(cuvinte) in fraza si determinarea rolului lor.
• Lematizare = aducerea cuvintelor la forma de baza.
• Determinarea frecventelor de aparitie a cuvintelor si a
succesiunilor de N cuvinte in text
• Eliminarea cuvintelor fara sens (prepozitii, conjunctii, articole
nehotarate, numerale nehotarate).
• Parts of speech (POS) Tagging = etichetarea, adica atribuirea unui
rol morfologic fiecarui cuvant
• Named entity recognition (NER) = detectarea numelor proprii, (de
persoane, de firme, de locatii,etc), a numerelor (date calendaristice,
valori monetare, etc.), a prescurtarilor, etc.
• Chunking presupune gruparea in unitati mai mari a cuvintelor care
au sens impreuna: Noi admiram o pasare in zbor
11
Aplicatii

• Prelucrarea textului pentru sisteme TTS: delimitare fraze


propozitii, unitati lexicale, tokenizare, NER, transcrierea fonetica a
textului, despartirea in unitati fonetice a unitatilor lexicale,
sintetizarea unitatilor fonetice si concatenarea lor.
• Prelucrarea textului pentru realizarea modelelor de limba in
forma de gramatici: delimitare fraze propozitii, unitati lexicale,
tokenizare, NER, POS Tagging, Dezambiguizare sintactica,
Lematizare, Parsare.
• Prelucrarea textului pentru realizarea modelelor de limba
statistice: delimitare fraze propozitii, unitati lexicale, determinarea
frecventelor de aparitie a cuvintelor si a succesiunilor de N cuvinte
in textul analizat, construindu-se modele N-gram

12
Incheierea primei parti a cursului

S au acumulat cunostinte despre:


• Comunicarea prin limbaj natural
• Producerea si perceptia vorbirii
• Analiza de timp scurt si compresia vorbirii prin extragerea de
parametri globali, spectrali, cepstrali, de predictie liniara.
• Sinteza vorbirii
• Recunoasterea vorbirii in sens clasic si bazata pe DL
• Prelucrarea textului
Aceste cunostinte se vor aplica in partea doua a cursului pentru
realizarea de tehnologii asistive bazate pe limbaj natural

13
Problema A
s(n)= e(n) * h(n)

modelul uzual de producere a vorbirii

Se considera modelul de producere a vorbirii reprezentat mai sus. Pentru cazul unei
analize cepstrale a vorbirii de calitate telefonica se cere:
Sa se stabileasca o valoare potrivita a duratei cadrului de analiza;
Sa se nominalizeze parametrii excitatiei si ai traectului vocal
Sa se codeze binar parametrii nominalizati
Sa se stabileasca structura unui cuvant de cod pentru fiecare cadru de analiza
Sa se determine rata de bit pentru iesirea analizorului
Sa se calculeze factorul de compresie al analizorului
Sa se explice cauza compresiei obtinute;
Care este rezultatul compresiei?

14
Problema1
Un semnal vocal de buna calitate este inregistrat pe un CD. Frecventa de esantionare este de
44 kHz si numarul de biti cu care se face cuantizarea este 16. Se cere:

1.Schema cu care se poate face inregistrarea semnalului dat de un microfon pe acest CD

2.Frecventa maxima a semnalului care poate fi inregistrat

3.Rata de bit la inregistrare

• Solutie

1.Schema contine un microfon, un amplificator, un filtru antialiere si un convertor A/D


•Microfonul transforma presiunea sonora in semnal electric de amplitudine scazuta
•Ampli ficatorul creste nivelul semnalului
•Filtrul antialiere limiteaza banda semnalului care urmeaza sa fie djgitalizat
1.fmax=0.9 f es /2=19.8 kHz≈20 kHz
2.Rbit = nbx f es = 16x44.103=704Kbit/s
15
Problema 2
• Se considera un semnal audio cu frecventa maxima din spectru egala cu 12 kHz. Iar
frecventa minima este de 20 HzSe cere:
• Sa se calculeze numarul de filtre trece banda necesare pentru acoperirea acestui
spectru daca largimea de banda a unui filtru este 300 Hz. Este un mod potrivit de
analiza a unui semnal audio din punct de vedere perceptiv?
• Sa se dea schema unui filtru digital potrivit pentru realizarea filtrarii trece-banda.
Care sunt elementele care determina banda si frecventa centrala a filtrului?
• Sa se calculeze numarul de filtre necesar pentru analiza de octava. Pentru unul din
filtre, sa se calculeze limitele benzii de frecvente analizata. Este acest filtru mai
potrivit pentru analiza din punct de vedere perceptiv?
• Sa se imparta in treimi de octava domeniul de frecvente cuprins in octava pentru
care s-au calculat la punctul precedent limitele benzii
• Cum se poate implementa analiza de treime de octava in analizoarele spectrale cu
filtre digitale?

16
Solutie problema 2 (1)
1. nF= fmax/b = 12.103/300 = 40 filtre
Analiza cu filtre de banda constanta nu este potrivita, urechea
analizand spectrul cu filtre de tip Q=fc/ b = ct. adica filtre de
octava, de 1/3 octava sau de banda critica
2. B1  2  cos( 2 f c / f es ) B2   H 0  exp( b / f es )

17
Solutie Problema 2 (2)
3. fmin= fmax/2nf 2nf -1 log fmin = log fmax Pentru fmin = 20 Hz, rezulta nf =9

12,000/6000/3000/1500/750/375/190/95/42/

Filtrele de octava sunt filtre de Q=ct. si sunt mai potrivite deoarece simuleaza mai
bine perceptia urechii.

4. Impartim in treimi de octava banda filtrului

fminf ______f1f___________f2f_______________fmaxf

cu fmaxf =6000Hz si fminf =3000 Hz

fmaxf/f2f=21/3 =1.26 f2f=4770Hz; f2f/f1f=1.26 f1f=3710Hz; fminf=3000Hz


5. In filtrele digitale se trece de la o octava la alta modificand fes

18
Solutie problema 2 (3)

19
Problema 3
• Se considera un program de analiza spectrala cu TFR in 512 puncte pentru un
semnal vocal de calitate radio, avand fmax= 9 kHz. Se cere:

1. Sa se aleaga un tip de fereastra de analiza si o durata adecvata a acesteia

2. Sa se stabileasca o valoare potrivita pentru pasul analizei. Justificare. Schita.


3. Cate esantioane de semnal vocal sunt cuprinse in aceasta fereastra daca se
alege o frecventa de esantionare de 20kHz? Ce probleme apar in realizarea
transformarii si cum se pot solutiona?
4. Sa se figureze structura de spectru pentru o vocala. Sa se explice semnificatia
componentelor din aceasta structura.
5. Sa se figureze structura de spectru pentru o consoana siflanta. Sa se explice
semnificatia componentelor din aceasta structura.
6. Sa se figureze o structura de spectru pentru o consoana ploziva. Sa se explice
semnificatia componentelor din aceasta structura.

7. Sa se determine rezolutia in frecventa. Cum poate fi modificata? 20


Solutie Problema 3 (1)
1. Se alege pentru analiza o fereastra Hamming. O durata potrivita a ferestrei de
analiza corespundeintervalului de stationaritate; Alegem Tf= 25ms.

2.Pentru a uniformiza efectul ferestrelor , pasul de prelucrare se alege Tp= Tf/2 =12.5
ms.

3. Tes= 1/fes = 1/20.103=50.10-6

Nf= Tf/Tes= 25.10-3/50.10-6= 500<512; se completeaza cu zerouri pana la 512


esantioane.

4. Spectrul vocalelor rezulta din Fig.1; ele prezinta o structura cu concentrari de


energie numite formanti. Au o structura periodica, cu frecventa fundamentala
evidentiata in spectrele de banda ingusta (partea superioara a Fig.1)

5. Spectrul consoanelor siflante (z) prezinta concentrari de energie la frecvente inalte


(6 kHz)
21
Solutia problemei 3 (2)
• 6. Spectrul consoanelor plozive (p, t) prezinta o concentrare de energie la
frecvente joase (0.5kHz, 1kHz)

• 7. Rezolutia in frecventa ∆f= f max/N/2= 2 f max/N= 2x12.103/512=46.8 Hz; poate fi


variata din N.

• 8. Numarul de operatii de multiplicare necesar este 4N logN= 4x512xlog 512=


4x512x9=18.432 operatii pentru o fereastra de analiza, ceea ce este intru totul
fezabil pe calculatoarele de azi

• 9. Este o analiza de banda constanta ∆f, deci nu modeleaza bine urechea, care
este un analizor de banda relativa constanta.

22
Solutia problemei 3 (3)

23

S-ar putea să vă placă și