Sunteți pe pagina 1din 35

QA SYSTEMS

SISTEME DE ÎNTREBARE -
RĂSPUNS
SISTEMELE QA
 Sunt o formă de regăsire a informațiilor (IR)
care se ocupă cu întrebări în limbaj natural.
 Scopul principal este găsirea unor răspunsuri
explicite la întrebări în loc de documente
întregi.
 Sunt caracterizate prin faptul că primesc un
set de întrebări în limbaj natural şi, pe baza unei
colecţii de documente, trebuie să extragă
răspunsul sau răspunsurile.
 Această colecţie poate varia de la o simplă
colecţie locală până la întregul World Wide
Web.
21.01.2018 2
 La ora actuală Internetul reprezintă cea mai
mare bază de cunoştinţe, aflată într-o
continuă extindere şi actualizare.
 Cele mai eficiente metode de descoperire şi
de achiziţie a informaţiei o reprezintă, în
prezent, motoarele de căutare.

21.01.2018 3
Deosebiri motor de căutare / QA system
Motoare de căutare Sisteme întrebare - răspuns
Oferă utilizatorului un set de Sunt capabile să răspundă la
articole sau pagini web în care întrebări formulate de utilizator în
acesta să poată găsi informaţia care limbaj natural.
îi este necesară. Asigură un răspuns la întrebarea
De multe ori articolele oferite de utilizatorului care îndeplinește
motoarele de căutare nu urmatoarele trei condiţii:
îndeplinesc dezideratul este corect,
utilizatorului de a obţine un este formulat tot în limbaj natural
răspuns satisfăcător. este suficient de succint.
Nu oferă răspunsul concret la
problema utilizatorului, ci doar un Necesită o procesare a limbajului
set de pagini web, din care natural mult mai complexă decât
utilizatorul trebuie să extragă sistemele de achiziţie de
singur informaţia căutată. documente.

21.01.2018 4
Metode folosite în dezvoltarea sistemelor
de tip întrebare-răspuns
Abordare de tip shallow, Abordarea de tip deep (adâncă), ce
(superficială) bazată pe cuvinte implică o analiză mai sofisticată, o
cheie. procesare sintactică, semantică şi
contextuală.
Se folosesc cuvinte cheie pentru a Există o serie de metode ce pot fi
găsi pasaje şi propoziţii în text care încadrate în această categorie:
ar putea reprezenta răspunsuri abduction, named-entity
valide la întrebări. recognition, relation detection etc.
Aceste potenţiale răspunsuri Alegerea unuia dintre cele două
urmează să fie analizate apoi mai modele depinde de complexitatea
în profunzime pentru a se stabili întrebărilor ce vor fi formulate şi
dacă sunt răspunsuri reale sau nu. de gradul de performanţă dorit de
Această metodă poate fi folosită cu la sistem.
succes în cazul întrebărilor scurte, Sistemele date sunt superioare
factuale, când se caută nume, date, celor de tip shallow.
locaţii, cantităţi.

21.01.2018 5
Starea de lucruri curentă (State of
the Art) în domeniul QA
 Un sistem QA de bază implică mai multe
procese care iau întrebarea utilizatorului
drept imput și vin cu un răspuns sau cu o
listă ordonată de răspunsuri-candidate.
 sistemul QA este compus din trei module
distincte:
 clasificarea întrebărilor,
 extragerea de informații, și
 extragerea răspunsului.
21.01.2018 6
Basic QA system architecture.
Colecția de
documente Extragerea răspunsului
- candidat

Căutarea Procesarea
documentelor răspunsului-candidat

Formularea Clasificarea Răspunsul


întrebării întrebărilor

Întrebarea

21.01.2018 7
Clasificarea Extragerea de Extragerea
întrebărilor informații răspunsului
• joacă un rol • este foarte • are scopul de a
esențial în importantă recupera
sistemele QA, pentru a răspunsul la o
clasificând răspunde la întrebare
întrebările întrebări, adresată de
adresate în deoarece în către utilizator.
funcție de tipul cazul în care nu
acestora. există
răspunsuri
corecte într-un
document, nu
se poate efectua
nicio procesare
ulterioară
pentru a găsi un
răspuns.

21.01.2018 8
Scenariul unui sistem QA
1.Utilizatorul postează o întrebare în sistemul QA .
2.Analizatorulîntrebărilor determină focalizarea întrebării pentru a spori acuratețea
sistemului QA .
3.Clasificarea
întrebărilor joacă un rol vital în sistemul QA prin identificarea tipului întrebării și
, prin urmare, a tipului de răspuns așteptat .
4.Componenta de regăsire a informației este folosită pentru a prelua documentele relevante
bazate pe cuvinte cheie importante care apar în întrebare .
5.Documentele relevante extrase sunt filtrate și scurtate în paragrafe , care ar putea să conțină
răspunsul .
6.Aceste paragrafe filtrate sunt ordonate şi transmise modulului de procesare a răspunsului .
7.Îndependenţă de tipul răspunsului și alte tehnici de recunoaştere sunt identificate
răspunsurile candidate .
8.Este definit un set de euristici cu scopul de a extrage numai cuvântul sau expresia relevantă
care răspunde la întrebare.
9.Răspunsul extras este în cele din urmă validat pentru corectitudine și prezentat utilizatorului .

21.01.2018 9
Modulul de procesare a întrebării
 Funcția principală - de a analiza și procesa întrebarea prin
crearea unor reprezentări a informațiilor solicitate.
 Prin urmare, modulul de prelucrare trebuie să:
 Analizeze întrebarea, în scopul de a reprezenta
principalele informații care sunt necesare pentru a
răspunde la întrebarea utilizatorului.
 clasifice tipul de întrebare, de obicei, pe baza taxonomiei
posibilelor întrebări deja codificate în sistem, care, la
rândul său, duce la tipul de răspuns așteptat, printr-o
procesare semantică superficială a problemei.
 reformuleze întrebarea, în pentru a îmbunătăți
formularea întrebării și de a transforma întrebarea în
interogări pentru regăsirea de informații (motor de
căutare).

21.01.2018 10
Analiza întrebării
 Transformarea unei întrebări din limbaj natural într-o
interogare pentru un motor de căutare este o
sarcină dificilă.
 Întrebarea ar trebui formulată corect.
 Un sistem QA caută expresia sau enunţul (sau
pasajul, documentul, setul de documente) care este
răspunsul exact la o întrebare.
• întrebările au multe nuanţe;
• majoritatea căutărilor sunt axate pe întrebări faptice;
• răspunsurile pot fi enunţuri sau expresii;
• răspunsurile complete ar trebui să fie găsite într-o
singură sursă.

21.01.2018 11
Tipuri de întrebări:
 Faptice : Cine l-a omorât pe Martin Luther
King?
 Sarcini : Cum pot să aplic pentru un paşaport?
 Opinii : Care a fost cel mai bun film anul
acesta?
 Definiţii : Cine este Jane Fonda?
 Liste : În ce filme s-a produs Jude Law?
 Explicaţii : Care a fost motivul războiului din
Koreea?
 Da-Nu : Este legal să mergi la culoarea roşie a
semaforului?
21.01.2018 12
Exemple de întrebări faptice:
 Q: Când s-a născut Mozart?
 A: 1756.
 Q: Ce este un nanometru?
 A: O miliardime de metru.
 A: O milionime de milimetru.
 Q: Când a avut loc Marea Depresie?
 A1: Anii 1930.
 A2: 1931.
 A3: 1932.
 Q: Cine este Abesalom?
 A1: lider afro-american, primul negru căpitan de navă
de vânătoare de balene.
 A2: Fiul lui David (biblic), care l-a trădat pe tatăl său.

21.01.2018 13
Analiza întrebării
 Analiza întrebării se mai referă la focalizarea
întrebării.
 Clasificarea întrebărilor și cunoașterea tipului lor nu
este de ajuns pentru a găsi răspunsuri la toate
întrebările.
 Întrebările de tip "Ce, cine, când, cum, unde etc.", de
exemplu, pot fi destul de ambigue în ceea ce privește
informațiile cerute.
 Focalizarea unei întrebări a fost definită ca fiind un
cuvânt sau o secvență de cuvinte care indică ce
informații se cer în întrebare.
 De exemplu, întrebarea "Care este cel mai lung fluviu
din New South Wales?" are focalizarea pe "cel mai
lung fluviu".
21.01.2018 14
Clasificarea tipului întrebării
 În scopul de a răspunde în mod corect la o
întrebare, este necesar să înțelegem ce tip de
informații solicită întrebarea.
 Cunoașterea tipului unei întrebări poate oferi
constrângeri asupra răspunsului
 Componenta de clasificare a tipului întrebării este
un instrument esențial al unui sistem QA,
deoarece oferă orientări semnificative cu privire la
natura răspunsului necesar.
 Prin urmare, întrebarea este clasificată în primul
rând după tipul ei: ce, de ce, cine, cum, când,
unde , etc.
21.01.2018 15
Arhitectura pentru schemele de indexare
bazate pe clasificarea întrebărilor
Procesul de indexare şi alegere a răspunsului

Interfaţa

întrebarea
Modulul de
clasament
Clasificatorul
întrebărilor

Preprocesor
interogarea

Motorul de
termeni căutare

Repozitoriu de Indexator bazat pe Indecşii bazaţi pe


documente categoria întrebării categoria întrebării
(QC) (QC)
căutarea

21.01.2018 16
 Pentru a răspunde la întrebarea utilizatorului,
este necesar de a menține un index care ia în
considerare tipul răspunsului pe care utilizatorul
îl așteaptă de la sistem.
 În figura de mai sus sunt 5 module funcționale:
 Preprocesorul
 Indexatorul
 Clasificatorul întrebărilor
 Motorul de căutare
 Clasamentul

21.01.2018 17
Clasificatorul întrebărilor

 Modulul de clasificare a întrebărilor ia întrebarea


utilizatorului ca intrare și identifică clasa
întrebării și desfășoară procesul de clasificare,
după cum urmează:
Pasul 1. Primul cuvânt al întrebării identifică
clasa întrebării.
Pasul 2. Partea rămasă a întrebării este
transformată în interogare.
 Arhitectura propusă limitează clasa întrebărilor
la cine, ce, când, unde, de ce, și cum. (WH-
questions)
21.01.2018 18
Procesul de convertire a unei întrebări într-o
interogare
Întrebarea Clasificarea Interogarea
întrebării
Tipul răspunsului Setul de termeni
Who discovered Who Person, organization Discover stem, cell.
stem cell?
Which is the coldest Which Person, location, time, Cold, place, world
place in the world? year, month, day
When did Titanic When Time, year, month, day Titanic, sink
sink?
How is the president How Process President, USA, elect
of USA elected?
Why did Hitler kill Why Reason Hitler , kill
himself?

21.01.2018 19
 Tabelul de mai sus arată că clasificatorul
întrebării împarte întrebările pe clase de
întrebări și interogări.
 În exemplul "Cine a descoperit celulele
stem?", "Cine", este clasa întrebării,
"persoană, organizație este", tipul de
răspuns și "a descoperi, Stem, Celule" sunt
setul de termeni stabilit.

21.01.2018 20
Motorul de căutare
 Ia ca intrare, clasa întrebării și interogarea oferite
de modulul de clasificare a întrebării și apoi
schiţează (proiectează) clasa întrebărilor în cea a
tipului de răspuns(uri) adecvat (e).
 Apoi, folosind indexul bazat pe Clasificarea
întrebărilor, prezentat în Figura 2, caută termenii
din interogarea corespunzătoare tipului de
răspuns găsit.
 Apoi extrage ID-ul enunţului și ID-ul paginii în
care apar termeni.
 Propozițiile sunt date ca răspunsuri, care sunt
apoi transmise la modulul de clasament pentru
atribuirea unui scor fiecărui răspuns.
21.01.2018 21
Proiectarea clasei întrebărilor în cea a
tipului de răspuns

21.01.2018 22
Modulul de Clasament

Extrage răspunsurile
Motorul de candidate la Modulul de Clasifică aceste Sistemul de Atribuie un scor
căutare întrebarea clasament răspunsuri feedback fiecărui răspuns
utilizatorului

REZULTATUL: Lista răspunsurilor


clasificate cu cele acceptate de
majoritatea utilizatorilor în top-ul
listei.

21.01.2018 23
Modulul de Clasament (descifrare)
 Setul de fraze extrase de modulul de căutare sunt
răspunsurile candidate la întrebarea utilizatorului.
 Aceste răspunsuri sunt apoi clasificate în ordinea
corespunzătoare de modulul de clasament.
 Sistemul solicită utilizatorului să dea un feedback cu privire
la fiecare de răspuns care apare ca un rezultat.
 Folosind această abordare un scor adecvat este atribuit
fiecărui răspuns returnat de sistem şi care este apoi utilizat
pentru sortarea rezultatelor.
 Lista răspunsurilor clasificate este apoi prezentată
utilizatorului.
 Răspunsurile care sunt acceptate de majoritatea utilizatorilor
sunt clasate ca fiind superioare şi apar în partea de sus a
listei.
21.01.2018 24
Clasificarea întrebărilor bazată pe
reguli
 Acest tip induce reguli semantice și sintactice,
scrie regulile manual și le transmite algoritmului
bazat pe limbajul așteptat.
 Clasificarea întrebărilor se aplică pe baza acestor
reguli și în ceea ce privește regulile scrise
manual, și în ceea ce privește sintaxa și
caracteristicile de limbaj.
 Dar aceste procese necesită costuri, timp
suplimentar și muncă asiduă, fapte ce arată că
sistemele bazate pe această metodă nu sunt
scutite de erori.
21.01.2018 25
Clasificarea întrebărilor pe baza
instruirii automate
 Prezentarea tuturor regulilor sintactice și semantice
ale limbajului natural printr-un algoritm este o sarcină
complexă.
 Din acest motiv au fost create diferite tipuri de
algoritmi, care pot accepta diferite exemple, au
capacitatea de a învăţa și pot prezice ușor răspunsul
așteptat de utilizator.
 Folosind instruirea automată, putem genera sisteme
care includ mii de caracteristici ale întrebărilor și de a
face clasificarea acestora în mod automat.
 Această acțiune crește rata de productivitate a
sistemelor QA .
21.01.2018 26
Procesarea documentelor
expansiunea • luarea cuvintelor cheie extrase în etapa de procesare
a întrebării și căutarea lor într-un tezaur, sau alte
cuvintelor resurse, precum și adăugarea de termeni similari de
căutare, în scopul de a aduce cât mai multe
cheie documente relevante posibil.

regăsirea • Selectarea documentelor relevante ce conțin tipuri de


răspunsuri și termeni.
documentelor

identificarea • Extragerea și afișarea pasajelor ce conțin răspunsuri


candidate.
pasajelor

21.01.2018 27
Arhitectura prototipului sistemului QA
în serie

21.01.2018 28
Regăsirea textelor bazată pe modele
 De obicei modelele reflectă o relație directă dintre
întrebare și răspuns.
 De ex., întrebările Wh din engleză implică plasarea în
fruntea frazei a cuvântului cu WH:
When was the telephone invented?
In which American state is Iron Mountain located?
What is the largest whale?
 răspunsul va fi amplasat cel mai degrabă în dreapta
lanțului de cuvinte:
the telephone was invented in <answer>
Iron Mountain is located in <answer>
the largest whale is <answer>

21.01.2018 29
 Alte relații sintactice presupun alte modele de
lanțuri (rânduri), ca de ex.:
invented the telephone in <answer>
the telephone, invented in <answer>
in <answer> the telephone was invented
Iron Mountain, located in <answer>
<answer> is the largest whale
<answer> is the largest of the whales

21.01.2018 30
Procesarea răspunsurilor candidate
 Odată ce un set de pasaje sau fragmente au
fost extrase, un sistem QA trebuie să
determine ceea ce, și dacă este ceva în fiecare
pasaj sau fragment separat, ce ar putea servi
drept un răspuns la întrebare (extragerea
răspunsului candidat ) și cât de bun este acest
răspuns (evaluarea răspunsului candidat).
 Candidații la răspuns sunt clasificați pe baza
evaluării și comparării între ei (dacă sunt mai
mulți) și prezentați utilizatorului.

21.01.2018 31
Modele de extragere
 Două tipuri de modele sunt folosite pentru
extragerea răspunsurilor candidate din pasaje
sau fragmente.
 Ele pot fi extrase direct, folosind modele de
șiruri care identifică conținutul unui anumit
interval delimitat ca un candidat de răspuns,
 sau pot fi extrase folosind modele structurate,
de la parsingul de ieșire, etichetarea rolului
semantic și / sau interpretarea pasajelor sau
fragmentelor.
21.01.2018 32
Modele bazate pe șiruri (string patterns)
 Sunt cele mai simple.
 Pot fi deduse direct din întrebarea utilizatorului, scrise
manual sau calculate prin obținere din întrebări cu
răspunsuri cunoscute.
 De ex., perechile [entitate, locație] cum ar fi [Taj
Mahal, Agra], [Mormântul lui Grant, New York], etc.,
pot fi folosite pentru a prelua texte care sugerează
următoarele modele pentru a identifica răspunsul la
întrebările referitoare la locație:
<NAME> [is|are] located in <ANSWER>.
<NAME> in <ANSWER>,
<NAME> [lies|lie] on <ANSWER>.

21.01.2018 33
 În fiecare caz candidatul la răspuns este mărginit la stânga și
la dreapta sa cu un cuvânt sau un simbol identificabil.
 Asemenea modele mai pot fi caracterizate prin fiabilitatea
lor: cât de des ele aleg un candidat potrivit spre deosebire
(decât) de un șir arbitrar.
 Pentru a reduce răspunsurile pozitive false, răspunsurile
candidate extrase prin metoda modelelor bazate pe șiruri
sunt filtrate cu ajutorul unor teste derivate din tipurile de
întrebări.
 De ex., pentru o întrebare de tip where, <ANSWER>trebuie
să fie clasificabil drept locație.
 Pentru o întrebare de tip who, <ANSWER> trebuie să fie o
persoană.
 În această filtrare se folosesc recunoașterea entităților (nume
proprii și denumiri) în combinație cu WordNet și/sau
categoriile din Wikipedia.

21.01.2018 34
 Extragerea răspunsurilor candidate rareori produce
un singur candidat.
 De aceea trebuie selectat și afișat utilizatorului unul
sau mai mulți “cel mai bun“ candidat.
 Pentru acest lucru trebuie evaluată calitatea lor.
 Cea mai simplă metodă – calcularea frecvenței
apariției lor în setul de răspunsuri candidate.
 Rezultatul extragerii și evaluării răspunsurilor
candidate este o listă ordonată pe ranguri a
răspunsurilor a cărei parte de top este prezentată
drept răspuns(uri), fiecare însoțit de un ID de
document sau o bucată specifică de text menită să
servească drept dovadă.
21.01.2018 35

S-ar putea să vă placă și