Sunteți pe pagina 1din 6

Nume:

Prenume:
Grupa:

Regăsirea Informațiilor pe WEB
- examen -

Observație:
Nota la examen este dată de media aritmetică, rotunijtă, a celor trei note obținute la cele 3
capitole.
În cazul în care doriți echivalarea unui capitol cu parțialul corespunzător susținut în timpul
semestrului, vă rog să marcați acest lucru prin mențiunea „ECHIVALAT” în dreptul capitolului
respectiv.

Capitol 1: Indexare și căutare
Întrebări (1p. oficiu, 5p. întrebări)

1. Paralelizarea modulului de indexare bazată pe partiționarea după termeni obține (justificați
răspunsul):
a) o formă de indexare globală, în sensul că indexul asociat unui termen va fi conținut într-un
singur fișier.
b) o formă de indexare globală, în sensul că indexul asociat unui termen va fi conținut într-un
set de fișiere.
c) o formă de indexare locală, în sensul că indexul asociat unui termen va fi conținut într-un set
de fișiere.
d) o formă de indexare locală, în sensul că indexul asociat unui termen va fi conținut într-un
singur fișier.

2. Care dintre etapele de mai jos nu fac parte din procesul de căutare booleană? (justificați
răspunsul)
a) Analiza termenilor incluși în interogare pentru aducerea lor la forma sub care aceștia se
regăsesc în indexul asociat căutării.
b) Identificarea colecțiilor de documente care includ termenii de căutare.
c) Construirea indexului invers calitativ ce va deservi căutarea.
d) Identificarea operatorilor de bază (AND, OR, NOT) incluși în interogare și realizarea
operațiilor corespunzătoare.

3. În cadrul algoritmului Blocked Sort-Based Indexing, dimensiunea unui bloc se stabilește astfel
încât:
a) la fiecare etapă să fie procesat exact același număr de documente.
b) la fiecare etapă, documentele similare din punct de vedere al conținutului să fie procesate în
același bloc.
c) blocurile să ocupe aproximativ aceeași cantitate de memorie, iar procesarea unui bloc să se
realizeze integral în memoria disponibilă.
d) blocurile să permită, în medie, procesarea unui număr aproximativ egal de documente.

4. Modelul de căutare vectorial:
a) poate fi implementat exclusiv pe baza unui index invers calitativ.
b) poate fi implementat exclusiv pe baza unui index invers pozițional.
c) poate fi implementat pe baza unui index invers calitativ, cantitativ sau pozițional.
d) poate fi implementat exclusiv pe baza unui index invers cantitativ.

1

5. Care este ieșirea corespunzătoare fazei de mapare, caracteristică modelului MapReduce, dacă se
dorește construirea unui index invers cantitativ, fără a construi indexul direct corespunzător (x –
reprezintă o valoarea numerică strict mai mare decât 1)? (justificați răspunsul)
a) cheie := document, valoare := <cuvânt, x>
b) cheie := document, valoare := <cuvânt, 1>
c) cheie := cuvânt, valoare := <document, x>
d) cheie := cuvânt, valoare := <document, 1>

Problemă (1p. oficiu, 3p. rezolvare)
Se presupune că, pentru o colecție foarte mare de documente (de ordinul 1012 documente) s-a
construit un index invers calitativ (boolean). Pentru acest lucru s-a recurs la modelul de paralelizare
bazat pe partiționare de documente. Dat fiind un astfel de caz, proiectați o soluție care să
implementeze modelul boolean al funcției de regăsire și care să ruleze în paralel pe o mașină de
calcul paralel/distribuit.


Capitol 2: Roboți Web
(2p. oficiu, 8p. întrebări)

1. S-a transmis următoarea cerere HTTP:

HEAD / HTTP/1.1
Host: www.resursadefun.ro

pentru care s-a primit următorul răspuns:

HTTP/1.1 200 OK
Server: nginx
Date: Thu, 05 Jun 2014 18:25:28 GMT
Content-Type: text/html; charset=UTF-8
Connection: keep-alive
Vary: Accept-Encoding
X-Pingback: http://www.resursadefun.ro/xmlrpc.php
X-Frame-Options: SAMEORIGIN
X-Content-Type-Options: nosniff
X-XSS-Protection: 1; mode=block

În cest caz:
a) resursa indicată este de tip text/html și cererea pentru preluarea efectivă a resursei trebuie
realizată pe un socket nou.
b) resursa indicată este de tip text/html și cererea pentru preluarea efectivă a resursei poate fi
realizată pe același socket.
c) resursa indicată nu are dimensiune specificată și cererea pentru preluarea resursei trebuie
obligatoriu realizată pe un socket nou.
d) resursa indicată nu are dimensiune specificată și atunci nu ar trebui să fie preluată.

2. Un robot Web are semnătura MyBot v1.6, engine MyCrawler. Pe domeniul Web www.sample.com,
în rădăcina acestuia, se regăsește fișierul robots.txt cu următoarele intrări:

User-Agent: *
Disallow: /images/
Disallow: /scripts/

2

User-Agent: MyBot v1.6, engine MyCrawler
Disallow: /

În acest caz, robotul Web cu semnătura menționată (justificați răspunsul):
a) poate prelua orice resursă Web de pe domeniul www.sample.com
b) poate prelua orice resursă Web de pe domeniul www.sample.com cu excepția celor aflate în
directoarele /images/ și /scripts/.
c) nu ar trebui să exploreze domeniul www.sample.com
d) nu va prelua, în mod sigur, nici o resursă de pe domeniul www.sample.com.

3. Pentru un robot Web trebuie prevăzut un modul care să reviziteze paginile Web stocate în cache
pentru a actualiza conținutul acestora. În acest caz (justificați răspunsul):
a) cererile GET vor fi realizate în mod condițional și vor include, în header-ul If-Modified-Since,
data ultimei accesări pentru fiecare document revizitat.
b) cererile GET vor fi realizate în mod condițional și vor include, în header-ul If-Modified-Since,
data curentă.
c) cererile GET vor fi realizate în mod necondițional și, după preluarea unei resurse, se va
verifica ETAG-ul acesteia cu copia din cache.
d) cererile GET vor fi realizate în mod necondițional și, după preluarea unei resurse, aceasta va
fi verificată, caracter cu caracter, cu copia din cache.

4. Colecția de documente disponibilă pe Web poate fi privită ca un graf. Ce se poate spune despre
tehnicile de explorare cunoscute de la grafuri aplicate asupra acestuia?
a) Explorarea în adâncime va extinde foarte rapid domeniul de căutare.
b) Explorarea în lățime asigură un consum redus de memorie.
c) Explorarea în lățime asigură o extindere rapidă a domeniului de căutare.
d) Explorarea în adâncime are dezavantajul unui consum crescut de memorie.

5. În cadrul politicilor de paralelizare a roboților WEB, asignarea statică a URL-urilor: (justificați
răspunsul)
a) implică existența unui mecanism de partiționare care distribuie paginile unui singur
domeniu pe același nod de procesare.
b) implică existența unui mecanism de partiționare care distribuie paginile în ordinea preluării
acestora de pe WEB.
c) implică existența unui mecanism de partiționare care distribuie paginile unui singur
domeniu pe mai multe noduri de procesare.
d) implică existența unui mecanism de partiționare care distribuie paginile domeniilor virtuale
localizate pe același server real pe același nod de procesare.














3

6. Se consideră următoarea schemă modulară pentru un robot Web:


Modulul URL Frontier include, printre alte funcționalități, respectarea unui set parțial de reguli de
acces din cadrul protocolului REP. Aceste reguli se referă la (justificați răspunsul):
a) frecvența de acces a domeniului.
b) filtrarea URL-urilor barate de clauzele Disallow.
c) filtrarea URL-urilor barate de atributul rel al elementelor HTML anchor.
d) prioritizarea URL-urilor marcate explicit în clauzele Allow.

7. În cadrul protocolului DNS, mesajele de cerere și răspuns au același format pentru header. Primul
câmp din acest header este ID-ul de mesaj și este reprezentat pe 2 octeți. (justificați răspunsul)
a) Acest ID este setat de către server, reprezintă o sumă de control a mesajului și este utilizat
pentru detecția erorilor cauzate de utilizarea protocolului UDP.
b) Acest ID este setat de către client, server-ul va menține această valoare și rolul acestui câmp
este de a facilita corelarea cererilor transmise cu răspunsurile primite.
c) Acest ID este setat de către client și este utilizat de server pentru autentificare.
d) Acest ID este setat de către server și indică în răspuns numărul de ordine al înregistrării DNS
oferite.

8. Se consideră modelul de paralelizare al unui robot Web din figura de mai jos:


În acest caz, modulul Downloader este proiectat: (justificați răspunsul)
a) pentru a deschide o singură conexiune activă la orice moment de timp.
b) pentru a utiliza una sau mai multe conexiuni active simultan, dar, la orice moment de timp,
nu vor exista două sau mai multe conexiuni către același domeniu explorat.

4

c) pentru a deschide mai multe conexiuni active simultan, fără a verifica dacă există două sau
mai multe conexiuni către același domeniu explorat.
d) pentru a descărca și parsa fișierele corespunzătoare REP și a valida cererile de URL-uri
transmise de Crawl Manager.


Capitol 3: Analiza datelor Web
(2p. oficiu, 8p. întrebări)

1. Proprietatea de recurență Apriori implică faptul că (justificați raspunsul):
a) un itemset frecvent nu poate fi regăsit sub forma de subset în cadrul unui itemset care nu
este frecvent.
b) un itemset frecvent poate fi construit pe baza de subseturi care nu sunt frecvente.
c) un itemset care nu este frecvent elimină complet toate subseturile sale.
d) un itemset care nu este frecvent elimina complet toate superseturile sale.

2. Se consideră o partiție Web formată din 3 documente, cu legăturile organizate conform digrafului
următor:



Ordonați, din punct de vedere al scorului PageRank cele 3 documente Web (justificați răspunsul).
a) A > B > C.
b) B > A > C.
c) C > A = B.
d) A = B > C.

3. Presupunem că, în rularea algoritmului Apriori pentru un anumit set de date, se atinge o etapă în
care se determină un singur set frecvent. În acest caz:
a) algoritmul își incheie rularea pentru setul curent de date deoarece nu mai pot fi generați
candidați valizi.
b) algoritmul își încheie rularea pentru setul curent de date deoarece au fost analizate toate
tranzacțiile.
c) algoritmul continuă cu faza următoare de analiză, candidații noi fiind generați prin
permutări ale itemsetului frecvent anterior.
d) algoritmul continuă cu faza următoare de analiză, candidații noi fiind super-seturi ale
itemsetului anterior.

4. Algoritmul k-Means Clustering este un algoritm de tip (justificați răspunsul):
a) programare dinamică, pentru că, prin funcția obiectiv, se urmărește un optim global în ceea
ce privește abaterea medie a obiectelor față de centroidul grupului de care aparțin.
b) greedy, pentru că, prin funcția obiectiv, se urmărește un optim local în ceea ce privește
abaterea medie a obiectelor față de centroidul grupului de care aparțin.
c) backtracking, pentru că, prin re-evaluarea funcției obiectiv, se pot reface asignările de
obiecte între centroizi până se găsește cea mai bună potrivire.
d) branch-and-bound, pentru că, prin re-evaluarea funcției obiectiv, se pot reface asignările de
obiecte între centroizi până se găsește cea mai bună potrivire.

5

5. În cazul în care se dorește aplicarea algoritmului DIANA peste un set de documente, cea mai
potrivită formă de indexare este:
a) indexarea directă cantitativă, pentru care ponderea unui cuvânt este numărul de apariții din
cadrul unui document.
b) indexarea inversă cantitativă, pentru care ponderea unui cuvânt este numărul de apariții din
cadrul unui document.
c) indexarea directă cantitativă, pentru care ponderea unui cuvânt este dată de coeficienții tf și,
respectiv, idf.
d) indexarea inversă cantitativă, pentru care ponderea unui cuvânt este dată de coeficienții tf
și, respectiv, idf.

6. Algoritmul PageRank (justificați răspunsul):
a) se bazează pe o schemă de votare în cadrul căreia toate voturile (directe și indirecte) au
aceeași importanță.
b) se bazează pe o schemă de votare în cadrul căreia voturile primite din partea paginilor de tip
director Web sunt mai importante decât cele primite din partea paginilor de tip autoritate.
c) se bazează pe o schemă de votare în cadrul căreia voturile primite din partea paginilor de tip
autoritate sunt mai importante decât cele primite din partea paginilor de tip director Web.
d) se bazează pe o schemă de votare în cadrul căreia voturile directe sunt considerate mai
importante decât voturile indirecte.

7. Algoritmii HITS și PageRank se aplică peste:
a) informații de tip conținut, pentru că ambii algoritmi analizează datele incluse în
documentele Web.
b) informații de tip conținut, pentru că ambii algoritmi analizează datele incluse în cadrul
elementelor de tip anchor incluse în documentele Web.
c) informații de tip structură, pentru că ambii algoritmi se bazează pe modul în care sunt
interconectate documentele Web.
d) informații de tip profil utilizator, pentru că ambii algoritmi se bazează pe frecvența de acces
a documentelor Web.

8. Ce se poate spune despre modul în care este transferat un vot de încredere între documente Web
în cadrul algoritmului PageRank?
a) Votul unei pagini este ponderat relativ la numărul de link-uri incluse în pagina respectivă.
b) Votul unei pagini este ponderat relativ la numărul de link-uri care indică pagina respectivă.
c) Votul unei pagini este transferat integral, în mod egal, către toate link-urile incluse în pagina
respectivă.
d) Votul unei pagini este transferat integral, în mod egal, către toate link-urile interne
domeniului și ponderat către link-urile externe domeniului.