Sunteți pe pagina 1din 4

Crearea vocabularului

Curs NLP Română

Mihai ILIE
Vocabularul

Corpus: [propoziție1, propoziție2, propoziție3, …, propoziție_k]


[“Sunt bucuros pentru că am luat notă mare.”, “Nu îmi place să mă trezesc de
dimineață”, …]

Vocabular = [
“sunt”, “bucuros”, “pentru”, “că”, “am”, “luat”, “notă”, “mare”, “.”,
“nu”, “îmi”, “place”, “să”, “mă”, “trezesc”, “de”, “dimineață”, …
]
Extragere caracterisici din text
“Sunt bucuros pentru că am luat notă mare.”

Vocabular = [
“sunt”, “bucuros”, “pentru”, “că”, “am”, “luat”, …, “nu”, “îmi”, “place”, …]

[ 1, 1, 1, 1, 1, 1, … 0, 0, 0, …. ]

Vectorul va conține multe zerouri


Probleme cu această reprezentare

“Sunt bucuros pentru că am luat notă mare.”

 = [ 1, 1, 1, 1, 1, 1,…0, 0, 0,
….]

Nu
măr
para

S-ar putea să vă placă și