Sunteți pe pagina 1din 25

Indexarea documentelor WEB

Bibliografie

Regasirea Informatiilor pe WEB


Curs 02: Indexare (1)

s.l. dr. ing. Alexandru ARCHIP


alexandru.archip@cs.tuiasi.ro
Facultatea de Automatic
a si Calculatoare, Iasi

an universitar: 2014 2015

RIWeb 2014 2015/C02: Indexare

1/ 25

Indexarea documentelor WEB

Bibliografie

Cuprins

Indexarea documentelor WEB


Definitii
Caracteristici generale
Procesul de indexare
Tipuri de indexare
Exemplificari ale tipurilor de indecsi

RIWeb 2014 2015/C02: Indexare

2/ 25

Indexarea documentelor WEB

Bibliografie

Motor de cautare pe WEB

Figura 1 : Arhitectura general


a a motoarelor de c
atare pe WEB (preluare din [2])

RIWeb 2014 2015/C02: Indexare

3/ 25

Indexarea documentelor WEB

Bibliografie

Definitii

Notiuni intoductive
Definitii
Indexarea reprezinta procesul prin care datele unei colectii sunt reorganizate
n scopul de a fi regasite usor si precis.
Indexer-ul reprezinta acea entitate computationala (program/multime de
programe) ce implementeaza procesul de indexare.
WEB indexing reprezinta aplicarea procesului de indexare asupra continutului
WEB.
In mod uzual, algoritmii de indexare utilizati de motoarele de cautare WEB
sunt algoritmi de indexare orientati pe colectii de tip text.
Algoritmii specializati pe indexare sunt algoritmi bazati pe concepte
interdisciplinare din domenii precum lingvistica, psihologie, matematica,
informatica si stiinta calculatoarelor.

RIWeb 2014 2015/C02: Indexare

4/ 25

Indexarea documentelor WEB

Bibliografie

Caracteristici generale

Caracteristici generale
Factorii ce influeteaza procesul de indexare
Combinarea valorilor unui set de indecsi: influenteaza modul n care este
tratat un document n momentul indexarii.
Dimensiunea unui index si tehnicile de stocare ale indecsilor:
influenteaza modul n care este stocata informatia indexata si necesarul de
memorie.
Viteza de reg
asire a unui index: este dependenta de structura de date
destinata stocarii unui index si influenteaza rapiditatea regasirii unui anumit
index/set de indecsi, precum si operatiile ce tin de reactualizarea informatiilor
referite de un anumit index/set de indecsi.
Mentenanta bazei de indecsi.
Toleranta la defecte: influenteaza modalitatea de regasire a indecsilor
corupti, precum si functionarea indexer-ului n conditii de indecsi corupti.

RIWeb 2014 2015/C02: Indexare

5/ 25

Indexarea documentelor WEB

Bibliografie

Caracteristici generale

Caracteristici generale (2)

Structuri de date specifice


Arbori de indecsi structuri de date ordonate, utilizate n stocarea vectorilor de
siruri de caractere (cuvinte), cheia primara de sortare fiind n acest
caz cuvantul n sine.
Arbori sufix sunt structuri de date arborescente, ce suporta timpi liniari de
cautare. Sunt n mod frevent construiti prin stocarea unui set de
cuvinte cheie prin intermediul sufixului acestor cuvinte. Au
dezavantajul unui consum ridicat de memorie pentru stocarea
indecsilor.
Matrici de tip document-termen structuri de date bidimensionale, utilizate n
cadrul indexarii directe, ce retin relativ la document, setul de
indecsi ce se regasesc n cadrul documentului respectiv.

RIWeb 2014 2015/C02: Indexare

6/ 25

Indexarea documentelor WEB

Bibliografie

Procesul de indexare

Procesul de indexare

Task de baza/Scop
Procesarea unui set de documente (caz particular documente WEB) n
vederea regasirii rapide a documentelor ce contin un anumit cuvant/set de
cuvinte (index/set de indecsi).
Privit din punctul de vedere al intr
arilor/iesirilor, procesul de indexare
are:
intr
ari: colectia de documente ce trebuie indexate;
iesiri: structuri de c
autare indexate pentru colectia de intrare.

RIWeb 2014 2015/C02: Indexare

7/ 25

Indexarea documentelor WEB

Bibliografie

Procesul de indexare

Procesul de indexare (2)


Rezultat
Dictionarul de indecsi contine cheile de indexare obtinute n urma analizei
colectiei de documente si un set de pointeri catre valorile
indexate corespunzatoare fiecarei chei.
Setul de fisiere de index pentru fiecare cheie de indexare, n cadrul acestor
fisiere se vor retine valorile indexate asociate.
Etape principale
Pre-procesare:
mp
artirea textului n cuvinte (se mai numeste token-izare);
prelucrarea listei de token-uri obtinute.

Construirea efectiva a indexului de interes.

RIWeb 2014 2015/C02: Indexare

8/ 25

Indexarea documentelor WEB

Bibliografie

Procesul de indexare

Procesul de indexare (3)

Preprocesarea
Definitie (n general): procesul prin intermediul caruia un set de date este
alterat n vederea realizarii unei anumite analize.
Particularizare analiza/indexarea documentelor text: transformarea
documentelor text pentru a elimina/transforma entitatile/cuvintele ce pot
afecta negativ procesul de indexare.
Probleme ce trebuie adresate/rezolvate:
ce se consider
a cuv
ant semnificativ ?
semnele de punctuatie exemplu: e-mail sau vs.?
c
and sunt semnificative valorile numerice?
c
and trebuie considerate fraze/sintagme n loc de cuvinte?
cuvintele trebuie s
a se reg
aseasc
a n forma de baz
a.

RIWeb 2014 2015/C02: Indexare

9/ 25

Indexarea documentelor WEB

Bibliografie

Procesul de indexare

Procesul de indexare (4)

Pre-procesare etapa de token-izare


(pentru documente HTML)
1

(n mod uzual, simplist) se elimina toate etichetele HTML


n principiu, textul util din cadrul atributelor diferitelor etichete nu este
randat de un browser Web, deci utilizatorul final nu poate citi acest text...

se mparte textul ntr-o lista de cuvinte


prin cuv
ant se ntelege, n mod uzual, o succesiune de caractere alfabetice
(f
ar
a semne de punctuatie, caractere de tip separator, etc.) [3];
se elimin
a cuvintele de tip zgomot (pe baza unei liste numite n mod uzual
stopwords) [3].

RIWeb 2014 2015/C02: Indexare

10/ 25

Indexarea documentelor WEB

Bibliografie

Procesul de indexare

Procesul de indexare (5)


Pre-procesare etapa de prelucrare a token-urilor
(stemming and lemmatization)

scopul principal al acestei etape este de a aduce cuvintele la forma canonic


a;
etapa este n mod uzual una extrem de laborioasa si puternic dependenta de
limba n care este redactat documentul analizat;
(n mod uzual) exista doua tehnici prin intermediul caror se poate realiza
acest proces:
tehnici de tip stemming
imprecise, supuse unor errori aparent ridicole (multe cazuri de
exceptie), dar foarte rapide
Porter [2, 3], Lovins [2], Paice stemmer [2];

tehnici de tip analiz


a morfologic
a (eng. lemmatization)
rezultatele sunt mult mai precise, dar procesul este unul
extrem de laborios [2].
RIWeb 2014 2015/C02: Indexare

11/ 25

Indexarea documentelor WEB

Bibliografie

Tipuri de indexare

Tipuri de indexare
Indexarea direct
a
Definitie: reprezinta modalitatea de indexare ce are drept scop determinarea
indecsilor relativ la document.
Utilizeaza structuri de date ordonate, pentru care cheia primara de ordonare
este data de un identificator unic al documentului.
Sinonim indexare orizontal
a.
Forma generala
< docID : {termIDx |termIDx docID} >
unde:
docID identificator numeric atasat unui document;
termIDx identificator numeric atasat unui token (cuvant obtinut dupa
pre-procesare) inclus n documentul curent.

RIWeb 2014 2015/C02: Indexare

12/ 25

Indexarea documentelor WEB

Bibliografie

Tipuri de indexare

Tipuri de indexare (2) Indexarea directa

Utilitatea acestei forme de indexare


Indecsii inversi sunt, n mod uzual, construiti pe baza indecsilor directi
corespunzatori.
Indecsii directi sunt utilizati n cadrul diferitelor metode de analiza de
continut si pot contribui la determinarea relevantei unui document relativ la o
anumita sintagma de cautare.

RIWeb 2014 2015/C02: Indexare

13/ 25

Indexarea documentelor WEB

Bibliografie

Tipuri de indexare

Tipuri de indexare (3) Indexarea directa (2)

Sub-clase ale index-ului direct


Boolean lista termIDx cuprinde token-urile o singur
a dat
a, f
ar
a alte date
suplimentare;
Cantitativ lista termIDx cuprinde pentru fiecare token si num
arul de aparitii
n cadrul documentului;
Pozitional lista termIDx cuprinde pentru fiecare token si num
arul de aparitii
n cadrul documentului si, pentru fiecare aparitie, pozitia relativ
a
a acelei aparitii (ca numar de ordine);
aceasta ultima forma este mai putin utilizata.

RIWeb 2014 2015/C02: Indexare

14/ 25

Indexarea documentelor WEB

Bibliografie

Tipuri de indexare

Tipuri de indexare (4)


Indexarea invers
a
Definitie: reprezinta modalitatea de indexare ce are drept scop determinarea
documentelor relativ la index.
Utilizeaza structuri de date ordonate, pentru care cheia primara de ordonare
este data de indecsi sau de identificatori unici ai indecsilor.
Sinonim indexare vertical
a.
Forma generala
< termID : {docIDy |termID docIDy } >
unde:
termID identificator numeric atasat unui token (cuvant obtinut dupa
pre-procesare);
docIDy identificator numeric atasat unui document n cadrul caruia se
regaseste token curent.
RIWeb 2014 2015/C02: Indexare

15/ 25

Indexarea documentelor WEB

Bibliografie

Tipuri de indexare

Tipuri de indexare (5) Indexare inversa

Utilitatea acestei forme de indexare


Indexarea inversa reprezint
a componenta de baz
a a oric
arui motor de
c
autare!!

RIWeb 2014 2015/C02: Indexare

16/ 25

Indexarea documentelor WEB

Bibliografie

Tipuri de indexare

Tipuri de indexare (6) Indexare inversa (2)

Sub-clase ale indexului invers


Boolean lista docIDy contine numai ID-urilor acelor documente ce contin
token-ul curent, fara alte date suplimentare;
n mod uzual, aceasta forma de indexare inversa este utilizata n
cadrul motoarelor de cautare ce implementeaza functii booleene
simpliste.
Cantitativ lista docIDy contine lista ID-urile acelor documente ce contin
token-ul curent si, pentru fiecare docIDy , num
arul de aparitii ale
token-ului n cadul documentului docIDy ;
n aceasta forma, un astel de index nu este foare util n cadrul
motoarelor de cautare.

RIWeb 2014 2015/C02: Indexare

17/ 25

Indexarea documentelor WEB

Bibliografie

Tipuri de indexare

Tipuri de indexare (7) Indexare inversa (3)

Sub-clase ale indexului invers (2)


Bi-cuv
ant (eng. biword index) [2]
reprezinta o derivare a formelor anterioare, menita sa adreseze
interogarile complexe ale utilizatorilor;
fata de forma generala, indexul invers este populat astfel ncat sa
includa si perechi de token-uri consecutive:
< termIDi termIDi+1 : {docIDy |termIDi docIDy and termIDi+1
docIDy } >;
poate complica mult construirea indexului si nu rezolva decat un
caz particular de interogari ale utilizatorilor.

RIWeb 2014 2015/C02: Indexare

18/ 25

Indexarea documentelor WEB

Bibliografie

Tipuri de indexare

Tipuri de indexare (8) Indexare inversa (4)


Sub-clase ale indexului invers (3)
Pozitional
lista docIDy este alterata astfel ncat sa contina ID-urile
documentelor ce includ token-ul curent, pentru fiecare astfel de ID
num
arul de aparitii n cadrul documentului, si pentru fiecare
astfel de aparitie, pozitia relativ
a n cadrul documentului:
< termID : {

docIDy , counttermID : {positioniy |i 1 counttermID }
}, ...
>
unde
counttermID numarul de aparitii alte token-ului n cadrul lui
docIDy ;
RIWeb 2014 2015/C02: Indexare

19/ 25

Indexarea documentelor WEB

Bibliografie

Exemplific
ari ale tipurilor de indecsi

Exemplificarea diferitelor tipuri de indecsi

Colectia de documente
Doc1 Data mining este o tehnica noua de analiza a datelor.
Doc2 Tehnicile data mining pot aduce informatii noi.
Doc3 Datele sunt colectate prin tehnici specifice.
Vocabular de lucru
data, mining, tehnica, noutate, analiza, informatie

RIWeb 2014 2015/C02: Indexare

20/ 25

Indexarea documentelor WEB

Bibliografie

Exemplific
ari ale tipurilor de indecsi

Exemplificarea diferitelor tipuri de indecsi (2)

Tabelul 1 : Index direct boolean

Doc1
Doc2
Doc3

RIWeb 2014 2015/C02: Indexare

{analiza, data, mining, noutate, tehnica}


{data, informatie, mining, noutate, tehnica}
{data, tehnica}

21/ 25

Indexarea documentelor WEB

Bibliografie

Exemplific
ari ale tipurilor de indecsi

Exemplificarea diferitelor tipuri de indecsi (3)

Tabelul 2 : Index direct cantitativ

Doc1
Doc2
Doc3

{(analiza, 1), (data, 2), (mining, 1), (noutate, 1), (tehnica, 1)}
{(data, 1), (informatie, 1), (mining, 1), (noutate, 1), (tehnica, 1)}
{(data, 1), (tehnica, 1)}

RIWeb 2014 2015/C02: Indexare

22/ 25

Indexarea documentelor WEB

Bibliografie

Exemplific
ari ale tipurilor de indecsi

Exemplificarea diferitelor tipuri de indecsi (4)

Tabelul 3 : Index invers cantitativ

analiza
data
informatie
mining
noutate
tehnica

RIWeb 2014 2015/C02: Indexare

{(Doc1,
{(Doc1,
{(Doc2,
{(Doc1,
{(Doc1,
{(Doc1,

1)}
2), (Doc2,
1)}
1), (Doc2,
1), (Doc2,
1), (Doc2,

1), (Doc3, 1)}


1)}
1)}
1), (Doc3, 1)}

23/ 25

Indexarea documentelor WEB

Bibliografie

Exemplific
ari ale tipurilor de indecsi

Exemplificarea diferitelor tipuri de indecsi (5)

Tabelul 4 : Index invers pozitional

analiza
data
informatie
mining
noutate
tehnica

RIWeb 2014 2015/C02: Indexare

{(Doc1,
{(Doc1,
{(Doc2,
{(Doc1,
{(Doc1,
{(Doc1,

1:
2:
1:
1:
1:
1:

<5>)}
<1, 6>), (Doc2, 1: <2>), (Doc3, 1: <1>)}
<4>)}
<2>), (Doc2, 1: <3>)}
<4>), (Doc2, 1: <5>)}
<3>), (Doc2, 1:<1>), (Doc3, 1: <2>)}

24/ 25

Indexarea documentelor WEB

Bibliografie

Bibliografie

M. Craus et al., Regasirea Informatiilor pe WEB, Editura POLITEHNIUM,


Iasi 2005, capitolul 4

Christopher D. Manning, Prabhakar Raghavan and Hinrich Sch


utze,
Introduction to Information Retrieval, Cambridge University Press. 2008

Raymond J. Mooney Information Retrieval and Web Search (note de curs)

Wikipedia Index (search engine)

RIWeb 2014 2015/C02: Indexare

25/ 25