Sunteți pe pagina 1din 2

1. Algoritmul PageRank: a) Pondereaza voturile primite de o pagina in functie de gradul interior al acesteia.

b) Pleaca de la premisa ca toate voturile atribuite unei pagini Web au aceeasi importanta. c) Considera ca un vot se bucura de mai multa incredere decat un vot indirect. 2. Prezenta fisierului robots.txt pe un anumit domeniu implica(justificati raspunsul): a) Faptul ca orice robot Web ce viziteaza domeniul respecta regulile impuse in cadrul acestui fisier. b) Existenta unor regului ce ar trebui respectate de orice robot Web ce acceseaza domeniul c) Faptul ca site-ul se regaseste automat in lista de cautare a robotilor Web mentionati in fisier 3. Care dintre urmatoarele afiramtii legate de pararelizarea modulului de indexare este adevarata?(justificati raspunsul) a) Partitionarea dupa documente implica obtinerea unui index global unic intre nodurile de procesare b) Partitionarea dupa termeni are avantajul reducerii majore a comunicatiilor dintre nodurile de lucru in momentul construirii indexului. c) Partitionarea dupa termeni implica obtinerea unui index global unic intre nodurile de procesare. 4. Care este codarea corecta pentru intrebarea DNS ce urmareste determinarea adresei IP a resursei: http://www.example.com/index.html? a) 3www7example3com0 b) 3www7example3com1/5index4html0 c) 1/5index4html03www7example3com0 5. Indexarea inversa reprezinta acea forma de indexare care: a) Retine setul de documente trimise spre indexare relativ la indecsii continuti de documentele in cauza(organizare verticala). b) Retine cuvintele cheie date de utilizator relativ la documentele care contin acele cuvinte cheie(organizare orizontala). c) Retine setul de documente trimise spre indexare relativ la un set restrans de cuvinte cheie(organizare verticala). 6. Se da urmatoarea cerere HTTP: GET / HTTP/1.1 Host: www.rdf.ro Pentru care se obtine urmatorul raspuns HTTP: HTTP/1.1 301 Moved Permanently Date: Fri, 13 Jan 2012 19:52:08 GMT Server: Apache Location: http://www.resursadefun.ro/ Content-length: 235 Content-Type: text/html; charset=iso-8859-1 Ce actiuni trebuie sa realizeze un crawler WEB in acest caz? 7. Politicile uniforme de revizitare ale documentelor WEB: a) Implica revizitarea documentelor WEB dupa un interval de timp proportional cu rata de modificare a acestora. b) Nu au urmari negative din punct de vedere al gradului de noutate. c) Implica faptul ca dpcumentele WEB sunt revizitate cu aceeasi frecventa, indiferent de rata de modificare a acetstora. 8. Care dintre urmatoarele afirmatii este adevarata?

a) Web Crawling reprezinta procesul prin care sunt colectate si analizate, intr-o maniera automata, paginile WEB. b) Web Crawling reprezinta procesul prin care sunt analizate, intr-o maniera automata, paginile WEB. c) Web Crawling reprezinta procesul prin care sunt colectate, intr-o maniera automata, paginile WEB. 9. Care sunt avantajele partitionarii documentelor fata de cazul partitionarii indecsilor in cazul paralelizarii modului de indexare al unui robot WEB? 10. Metoda de partitionare K-Means: a) Este o metoda de partitionare nesupervizata, independenta de seturile de antrenament. b) Este o metoda de partitionare semi-supervizata, depentdenta doar partial de seturile de antrenament. c) Este o metoda de partitionare supervizata, dependenta de un set de antrenament. 11. Prototipul HTTP este un protocol(justificati raspunsul): a) Fara stare si utilizeaza o schema de transfer bazata pe modelul cerere/raspuns. b) Fara stare si utilizeaza o schema de transfer bazata pe modelul de notificari. c) Cu stare si utilizeaza o schema de transfer bazata pe modelul cerere/raspuns. 12. Ce pasi sunt implicati in tratarea completa a URI-ului http://www.example.com/index.html de catre robotul WEB? 13. Se considera urmatoarea matrice de adiacenta pentru o submultime de pagini WEB: ABCD A[0 1 0 0] B[0 0 1 0] C[0 0 0 1] D[1 0 0 0] Care este ordinea celor 4 pagini din punct de vedere al valorii PageRank?(Justificati raspunsul.): a) Ordinaea este A>B>C>D, indiferent de modelul de navigare utilizat b) Ordinea este A>B>C>D in cazul in care pagina A este tot timpul prima accesata de utilizatori. c) Cele 4 pagini au aceleasi valori pentru PageRank. 14. Ce inseamna un pointer in cadrul unui raspuns DNS si cum se determina valoarea acestuia? 15. Ce actiuni trebuie realizare in cazul in care atributul HREF al unui element A(anchor) contine ../? 16. In cadrul politicilor de paralelizare a robotilor WEB, asignarea statica a RI-urilor(Justificati raspunsul): a) Implica existenta unui mecanism de partitionare care distribuie paginile unui singur domeniu pe acelasi nod de procesare. b) Implica existenta unui mecanism de partitionare care distribuie paginile in ordinea prelucrarii acestora de pe WEB. c) Implica existenta unui mecanism de partitionare care distribuie paginile unui singur domeniu pe mai multe noduri de procesare. 17. Ce trebuie adaugat intr-un fisier rorbots.txt pentru a exclude complet agentul cu numele A1? a) User-Agent: A1 Disallow: all b) User-Agent: A1 Disallow: / c) User-Agent: A1 Disallow: * 18. Enuntati proprietatea de recurenta Apriori