Sunteți pe pagina 1din 4

Numele:

Grupa:
Data:

Regasirea Informatiilor pe WEB


Test grila - varianta 1

1. Ce actiuni trebuie sa realizeze un robot WEB in cazul unui raspuns HTTP de tip
"redirect permanent"?
a) Robotul trebuie sa preia noua adresa a resursei si sa retrateze complet cererea.
b) Robotul nu trebuie sa realizeze nici o actiune suplimentara, protocolul HTTP
trimite in caz de redirect si continutul vechi al paginii.
c) Robotul trebuie sa determine daca a fost mutata resursa de pe domeniul curent si
sa refaca cererea numai daca resursa se regaseste pe domeniu nou.

2. Un protocol de comunicatie reprezinta:


a) un set de reguli specifice sistemului de operare Linux pentru schimb de date intr-
o retea.
b) un set de reguli ce specifica modul de reprezentare al datelor.
c) un set de reguli ce guverneaza schimbul de date.

3. Starea de convergenta pentru partitionarea K-Means implica:


a) faptul ca fiecare obiect trebuie sa se gaseasca la distanta maxima fata de
obiectele similare.
b) faptul ca nu mai sunt mutate obiecte intre clustere.
c) faptul ca se atinge un optim global in ceea ce inseamna suma distantelor de la
obiecte la centorizii de care apartin.

4. In cadrul politicilor de paralelizare a robotilor WEB, asignarea statica a URL-


urilor:
a) implica existenta unui mecanism de partitionare care distribuie paginile in
ordinea preluarii acestora de pe WEB.
b) implica existenta unui mecanism de partitionare care distribuie paginile unui
singur domeniu pe mai multe noduri de procesare.
c) implica existenta unui mecanism de partitionare care distribuie paginile unui
singur domeniu pe acelasi nod de procesare.

5. Care dintre urmatoarele afirmatii legate de paralelizarea modulului de indexare


este adevarata?
a) Partitionarea dupa documente implica obtinerea unui index global unic intre
nodurile de procesare.
b) Partitionarea dupa termeni implica obtinerea unui index global unic intre
nodurile de procesare.
c) Partitionarea dupa termeni are avantajul reducerii majore a comunicatiilor dintre
nodurile de lucru in momemntul construirii indexului.

6. Care este codarea corecta pentru intrebarea DNS ce urmareste determinarea


adresei IP a resursei: http://www.example.com/index.html ?
1
a) 3 w w w 7 e x a m p l e 3 c o m 1 / 5 i n d e x 4 h t m l 0
b) 3 w w w 7 e x a m p l e 3 c o m 0
c) 1 / 5 i n d e x 4 h t m l 0 3 w w w 7 e x a m p l e 3 c o m 0

7. Care dintre afirmatiile de mai jos exprima corect proprietatea de recurenta


Apriori?
a) Suportul unui k-itemset poate fi cel mult egal cu minimul suportului pentru
subseturile componente.
b) Suportul unui k-itemset este cel putin egal cu minimul suportului subseturilor
componente.
c) Suportul unui k-itemset descreste o data cu cresterea numarului de itemi din set.

8. Ce trebuie adaugat intr-un fisier robots.txt pentru a exclude complet agentul cu


numele "A1"?
a)
User-agent: A1
Allow: none

b)
User-agent: A1
Disallow: *

c)
User-agent: A1
Disallow: /

9. Care dintre urmatoarele afirmatii este adevarata?


a) Algoritmul HITS, spre deosenire de PageRank, nu considera continutul paginilor
Web in analiza link-urilor.
b) Algoritmul HITS are ca scop determinarea site-urilor de tip HUB si, respectiv, a
celor de tip AUTORITATE.
c) Algoritmul HITS are ca scop determinarea site-urilor ce faciliteaza raspandirea
spam-ului.

10. Indexarea inversa reprezinta acea forma de indexare care:


a) retine cuvintele cheie date de utilizator relativ la documentele care contin acele
cuvinte cheie (organizare orizontala).
b) retine setul de documente trimise spre indexare relativ la indecsii continuti de
documentele in cauza (organizare verticala).
c) retine setul de documente trimise spre indexare relativ la un set restrans de
cuvinte cheie (organizare verticala).

11. Algoritmul PageRank:


a) pondereaza voturile primite de o pagina in functie de gradul interior al acesteia.
b) considera ca un vot direct se bucura de mai multa incredere decat un vot
indirect.
c) pleaca de la premisa ca toate voturile atribuite unei pagini Web au aceeasi
importanta.

2
12. Politicile uniforme de revizitare ale documentelor WEB:
a) nu au urmari negative din punctul de vedere al gradului de noutate.
b) implica faptul ca domentele WEB sunt revizitate cu aceeasi frecventa, indiferent
de rata de modificare a acestora.
c) implica revizitarea documentelor WEB dupa un interval de timp proportional cu
rata de modificare a acestora.

13. Prezenta fisierului robots.txt pe un anumit domeniu implica:


a) existenta unor reguli ce ar trebui respectate de orice robot Web ce acceseaza
domeniul.
b) faptul ca site-ul se regaseste automat in lista de cautare a robotilor Web
mentionati in fisier.
c) faptul ca orice robot Web ce viziteaza domeniul respecta regulile impuse in
cadrul acestui fisier.

14. Metoda GET este o metoda HTTP sigura (safe method) pentru ca:
a) urmareste localizarea resursei specificate pe un anumit domeniu si transfera
resursa respectiva catre client, fara alte modificari pe server.
b) urmareste localizarea resursei specificate pe un anumit domeniu si ascunde in
raspuns locatia exacta a resursei.
c) urmareste localizarea resursei specificate pe un anumit domeniu si actualizeaza
informatiile legate de utilizatorul care a apelat serverul.

15. Care dintre urmatoarele afirmatii este adevarata?


a) Explorarea in adancime a WEB-ului implica un consum exponential de memorie
relativ la numarul de pagini existente in URL-frontier.
b) Explorarea in adancime a WEB-ului are avantajul de a restrange procesul de
explorare in interiorul unui anumit domeniu.
c) Explorarea in latime a WEB-ului are avantajul unei extinderi foarte rapide a
domeniului de explorare.

16. Un robot web:


a) se opreste din cautare in momentul in care a terminat de downloadat paginile
incluse in SEED LIST.
b) extrage dintr-o pagina Web numai acele link-uri ce sunt marcate pentru
download de catre managerul uman.
c) introduce link-urile noi incluse in pagina curenta intr-o structura de tip
coada/lista pentru a le putea vizita ulterior.

17. Care dintre urmatoarele afirmatii este adevarata?


a) "Web Crawling" reprezinta procesul prin care sunt colectate si analizate, intr-o
maniera automata, paginile Web.
b) "Web Crawling" reprezinta procesul prin care sunt analizate, intr-o maniera
automata, paginile Web.
c) "Web Crawling" reprezinta procesul prin care sunt colectate, intr-o maniera
automata, paginile Web.

18. Metoda de partitionare K-Means:

3
a) este o metoda de partitionare semi-supervizata, dependenta doar partial de
seturile de antrenament.
b) este o metoda de partitionare supervizata, dependenta de un set de antrenament.
c) este o metoda de partitionare nesupervizata, independenta de seturile de
antrenament.