Sunteți pe pagina 1din 2

Universitatea Tehnică „Gheorghe Asachi” din Ias, i Dept.

: Calculatoare s, i Tehnologia Informat, iei


Facultatea de Automatică s, i Calculatoare Studii universitare de licent, ă – an IV
Regăsirea informat, iilor pe Web

Proiect 2
Crawler WEB

an univ. 2018 – 2019

Aplicat, ia corespunzătoare celei de a doua componenete de proiect trebuie să implementeze un Crawler WEB. Acest modul
trebuie să realizeze corect cereri HTTP utilizând versiunea 1.1 a protocolului s, i să salveze cont, inutul HTML al resursei indicate.
Aplicat, ia trebuie proiectată s, i implementată astfel încât să permită rularea în continuu. În acest sens, modulul URL Frontier
(coada de explorare) aferent va include init, ial un set de două/trei URL-uri. Rularea în continuu implică următorii pas, i:

1. se va prelua următorul URL din coada de explorare s, i se procesează astfel încât să se extragă numele domeniului explorat
s, i URL-ul relativ al resursei dorite;

2. dacă domeniul este la prima explorare, atunci se va solicita resursa /robots.txt; dacă aceasta există, se trece la pasul
3, dacă nu se continuă cu pasul 4;
3. (dacă există robots.txt) se verifică clauzele Disallow pentru URL-ul relativ curent; dacă REP permite accesul pe
resursă, atunci se trece la pasul 4, dacă nu, se trece la următorul URL din coada de explorare;
4. se preia resursa indicată de URL s, i se salvează local – pentru fiecare domeniu se va crea un director, apoi, în cadrul acestui
director, se va urma structura de directoare din cadrul URL-ului;
5. (dacă este cazul) dacă se primes, te un cod 301 Moved Permanently, atunci se va reface cererea pentru noua locat, ie s, i se
vor actualiza datele deja salvate; orice alt tip de redirect va implica numai reluarea cererii pe noua locat, ie a resursei, fără
alte actualizări de date;

6. se analizează tag-ul HTML meta, name="robots"; în cazul în care este permisă extragerea link-urilor incluse în docu-
ment, se vor extrage aceste link-uri sub forma unui set de URL-uri absolute; din cadrul acestui set se elimină link-urile
care nu respectă REP sau care se află deja în coada de explorare;
7. se reia pasul 1.

Cerint, e bonus
Aplicat, ia poate respecta următoarele cerint, e bonus:

1. Cache DNS: aplicat, ia implementează propriul mecanism de caching al înregistrărilor DNS.


2. performant, e: în mod secvent, ial, în cazul în care REP nu impune restrict, ii de viteză, se dores, te o rată medie de transfer de
aproximativ 100 pagini/minut;
3. Crawler-ul WEB va fi distribuit/paralelizat pentru a spori performant, ele; dacă, de exemplu, se vor utiliza două module
de tip fetcher, atunci rata medie de transfer dorită va fi de aproximativ 200 pagini/minut.

1
Universitatea Tehnică „Gheorghe Asachi” din Ias, i Dept.: Calculatoare s, i Tehnologia Informat, iei
Facultatea de Automatică s, i Calculatoare Studii universitare de licent, ă – an IV
Regăsirea informat, iilor pe Web

Barem evaluare proiect


Proiectele pornesc ca bază de notare de la 1 punct.

Criteriu Punctaj
1. Realizarea corectă a cererii pentru a prelua o resursă HTML - obligatoriu
componentă DNS – client „3rd party” 1 punct
sau
componentă DNS – implementare proprie 2 puncte
componentă HTTP – client „3rd party” 1 punct
sau
componentă HTTP – implementare proprie 2 puncte
2. Salvarea completă s, i corectă a paginii HTML
în cadrul unui singur director de lucru, fără a t, ine cont de structura URL-urilor 0,5 puncte
în cadrul unei structuri de directoare, t, inând cont de structura URL-urilor 1 punct
3. Respectarea pseudo-protocolului REP - obligatoriu
la nivel de pagină 1 punct
la nivel de domeniu 1 punct
4. Gestionarea corectă a structurilor de tip URL Frontier - obligatoriu 2 puncte
reconstruirea link-urilor care trebuie vizitate
marcarea corectă a link-urilor care pot fi explorate
marcarea corectă a link-urilor care au fost deja explorate

Observat, ii
Student, ii vor fi rugat, i să completeze o auto-evaluare a proiectului dezvoltat. Auto-evaluările care nu diferă de nota acordată
de titularii de laborator vor primi suplimentar 0.5 puncte. În plus, implementările pot atrage punctaj suplimentar (puncte bonus)
pentru media finală a disciplinei, astfel:
Implementare s, i gestiunea cache DNS – 2 puncte;
Rată de transfer secvent, ială – 100 pag./minut – 1 punct;
Paralelizare/distribuire eficientă – 2 puncte.

S-ar putea să vă placă și

  • Examen
    Examen
    Document6 pagini
    Examen
    Bpiw Ali
    Încă nu există evaluări
  • Raspuns
    Raspuns
    Document1 pagină
    Raspuns
    Bpiw Ali
    Încă nu există evaluări
  • Rezolvare Partial 1
    Rezolvare Partial 1
    Document4 pagini
    Rezolvare Partial 1
    Bpiw Ali
    Încă nu există evaluări
  • Wir Test
    Wir Test
    Document4 pagini
    Wir Test
    Bpiw Ali
    Încă nu există evaluări
  • ALPD Tema Casa
    ALPD Tema Casa
    Document11 pagini
    ALPD Tema Casa
    Bpiw Ali
    Încă nu există evaluări
  • ALPD Tema Casa
    ALPD Tema Casa
    Document11 pagini
    ALPD Tema Casa
    Bpiw Ali
    Încă nu există evaluări
  • E Info Intensiv SubIII
    E Info Intensiv SubIII
    Document100 pagini
    E Info Intensiv SubIII
    ana_maria_2008
    Încă nu există evaluări
  • Proton Fo Liu
    Proton Fo Liu
    Document8 pagini
    Proton Fo Liu
    Bpiw Ali
    Încă nu există evaluări
  • O Scrisoare Pierduta de I.L.Caragiale - Rezumat
    O Scrisoare Pierduta de I.L.Caragiale - Rezumat
    Document5 pagini
    O Scrisoare Pierduta de I.L.Caragiale - Rezumat
    Andreea Domsa
    85% (403)
  • Blaga
    Blaga
    Document2 pagini
    Blaga
    Bpiw Ali
    Încă nu există evaluări
  • Teza Romana
    Teza Romana
    Document9 pagini
    Teza Romana
    Bpiw Ali
    Încă nu există evaluări
  • Microsoft Word - Marin Sorescu - Iona
    Microsoft Word - Marin Sorescu - Iona
    Document24 pagini
    Microsoft Word - Marin Sorescu - Iona
    salieeri
    94% (34)
  • Dispersia Luminii
    Dispersia Luminii
    Document17 pagini
    Dispersia Luminii
    Bpiw Ali
    Încă nu există evaluări
  • Ţară
    Ţară
    Document5 pagini
    Ţară
    Bpiw Ali
    Încă nu există evaluări
  • G.C Linescu
    G.C Linescu
    Document11 pagini
    G.C Linescu
    Bpiw Ali
    Încă nu există evaluări
  • Idei Proiect
    Idei Proiect
    Document2 pagini
    Idei Proiect
    Bpiw Ali
    Încă nu există evaluări
  • Germania
    Germania
    Document1 pagină
    Germania
    Bpiw Ali
    Încă nu există evaluări
  • Tristan Tzara
    Tristan Tzara
    Document5 pagini
    Tristan Tzara
    Bpiw Ali
    Încă nu există evaluări
  • Cutremur
    Cutremur
    Document19 pagini
    Cutremur
    Bpiw Ali
    Încă nu există evaluări
  • Evaluare in Educatie
    Evaluare in Educatie
    Document3 pagini
    Evaluare in Educatie
    Bpiw Ali
    Încă nu există evaluări
  • Pentru Achizitionarea StatCounter
    Pentru Achizitionarea StatCounter
    Document2 pagini
    Pentru Achizitionarea StatCounter
    Bpiw Ali
    Încă nu există evaluări
  • New Text Document
    New Text Document
    Document1 pagină
    New Text Document
    Bpiw Ali
    Încă nu există evaluări
  • Lecturi 10
    Lecturi 10
    Document2 pagini
    Lecturi 10
    Bpiw Ali
    Încă nu există evaluări
  • Testevaluareclasaix
    Testevaluareclasaix
    Document4 pagini
    Testevaluareclasaix
    Bpiw Ali
    Încă nu există evaluări
  • Rem
    Rem
    Document1 pagină
    Rem
    Bpiw Ali
    Încă nu există evaluări