Documente Academic
Documente Profesional
Documente Cultură
Abordari hibride
Abordarile clusterizarii documentelor bazata pe link-uri descrise anterior caracterizeaza
documentul numai prin informatia extrasa din structura de link-uri a colectiei, exact asa cum
abordarile bazate pe text caracterizeaza documentele numai prin cuvintele pe care le contin. Desi
link-urile pot fi vazute ca o recomandare a creatorului unei pagini catre o alta pagina, acestea nu
intotdeauna intentioneaza sa indice similaritatea. Mai mult, acesti algoritmi pot suferi pe urma
unei densitati scazute sau prea mari de structuri de link-uri. Pe de alta parte, algoritmii bazati pe
text au probleme cand trateaza cu limbi diferite sau cu particularitati de limbaj (sinonime,
omonime, etc). De asemenea paginile Web contin alte forme de informatie in afara textului,
precum imagini sau multimedia. Ca o consecinta, abordarile clusterizarii hibride a documentelor
au fost propuse pentru a combina avantajele si a limita dezavantajele celorlalte doua abordari.
Pirolli descrie o metoda care reprezinta paginile ca vectori continand informatia din
continut, link-uri, datele de utilizare si meta-informatiile atasate fiecarui document. Algoritmul
de clusterizare « continut-legaturi » care a fost propus de Weiss este un algoritm de clusterizare
aglomerativa ierarhica, in care este folosita metoda link-urilor complete si o masura de
similaritate hibrida. Alte abordari de clusterizare hibride bazate pe legaturi si text este algoritmul
k-means toric, propus de Modha & Spangler. Algoritmul porneste prin a aduna rezultatele
returnate unei interogari a utilizatorului dintr-un motor de cautare si extinde setul incluzand
paginile Web care sunt legate de paginile din setul original. Modha & Spangler furnizeaza si o
schema pentru a prezenta continutul fiecarui cluster utilizatorilor, descriind diferite aspecte ale
clusterului.
3.3.3. Concluzii