Documente Academic
Documente Profesional
Documente Cultură
Bibliografie
1/ 25
Bibliografie
Cuprins
2/ 25
Bibliografie
3/ 25
Bibliografie
Definitii
Notiuni intoductive
Definitii
Indexarea reprezinta procesul prin care datele unei colectii sunt reorganizate
n scopul de a fi regasite usor si precis.
Indexer-ul reprezinta acea entitate computationala (program/multime de
programe) ce implementeaza procesul de indexare.
WEB indexing reprezinta aplicarea procesului de indexare asupra continutului
WEB.
In mod uzual, algoritmii de indexare utilizati de motoarele de cautare WEB
sunt algoritmi de indexare orientati pe colectii de tip text.
Algoritmii specializati pe indexare sunt algoritmi bazati pe concepte
interdisciplinare din domenii precum lingvistica, psihologie, matematica,
informatica si stiinta calculatoarelor.
4/ 25
Bibliografie
Caracteristici generale
Caracteristici generale
Factorii ce influeteaza procesul de indexare
Combinarea valorilor unui set de indecsi: influenteaza modul n care este
tratat un document n momentul indexarii.
Dimensiunea unui index si tehnicile de stocare ale indecsilor:
influenteaza modul n care este stocata informatia indexata si necesarul de
memorie.
Viteza de reg
asire a unui index: este dependenta de structura de date
destinata stocarii unui index si influenteaza rapiditatea regasirii unui anumit
index/set de indecsi, precum si operatiile ce tin de reactualizarea informatiilor
referite de un anumit index/set de indecsi.
Mentenanta bazei de indecsi.
Toleranta la defecte: influenteaza modalitatea de regasire a indecsilor
corupti, precum si functionarea indexer-ului n conditii de indecsi corupti.
5/ 25
Bibliografie
Caracteristici generale
6/ 25
Bibliografie
Procesul de indexare
Procesul de indexare
Task de baza/Scop
Procesarea unui set de documente (caz particular documente WEB) n
vederea regasirii rapide a documentelor ce contin un anumit cuvant/set de
cuvinte (index/set de indecsi).
Privit din punctul de vedere al intr
arilor/iesirilor, procesul de indexare
are:
intr
ari: colectia de documente ce trebuie indexate;
iesiri: structuri de c
autare indexate pentru colectia de intrare.
7/ 25
Bibliografie
Procesul de indexare
8/ 25
Bibliografie
Procesul de indexare
Preprocesarea
Definitie (n general): procesul prin intermediul caruia un set de date este
alterat n vederea realizarii unei anumite analize.
Particularizare analiza/indexarea documentelor text: transformarea
documentelor text pentru a elimina/transforma entitatile/cuvintele ce pot
afecta negativ procesul de indexare.
Probleme ce trebuie adresate/rezolvate:
ce se consider
a cuv
ant semnificativ ?
semnele de punctuatie exemplu: e-mail sau vs.?
c
and sunt semnificative valorile numerice?
c
and trebuie considerate fraze/sintagme n loc de cuvinte?
cuvintele trebuie s
a se reg
aseasc
a n forma de baz
a.
9/ 25
Bibliografie
Procesul de indexare
10/ 25
Bibliografie
Procesul de indexare
11/ 25
Bibliografie
Tipuri de indexare
Tipuri de indexare
Indexarea direct
a
Definitie: reprezinta modalitatea de indexare ce are drept scop determinarea
indecsilor relativ la document.
Utilizeaza structuri de date ordonate, pentru care cheia primara de ordonare
este data de un identificator unic al documentului.
Sinonim indexare orizontal
a.
Forma generala
< docID : {termIDx |termIDx docID} >
unde:
docID identificator numeric atasat unui document;
termIDx identificator numeric atasat unui token (cuvant obtinut dupa
pre-procesare) inclus n documentul curent.
12/ 25
Bibliografie
Tipuri de indexare
13/ 25
Bibliografie
Tipuri de indexare
14/ 25
Bibliografie
Tipuri de indexare
15/ 25
Bibliografie
Tipuri de indexare
16/ 25
Bibliografie
Tipuri de indexare
17/ 25
Bibliografie
Tipuri de indexare
18/ 25
Bibliografie
Tipuri de indexare
19/ 25
Bibliografie
Exemplific
ari ale tipurilor de indecsi
Colectia de documente
Doc1 Data mining este o tehnica noua de analiza a datelor.
Doc2 Tehnicile data mining pot aduce informatii noi.
Doc3 Datele sunt colectate prin tehnici specifice.
Vocabular de lucru
data, mining, tehnica, noutate, analiza, informatie
20/ 25
Bibliografie
Exemplific
ari ale tipurilor de indecsi
Doc1
Doc2
Doc3
21/ 25
Bibliografie
Exemplific
ari ale tipurilor de indecsi
Doc1
Doc2
Doc3
{(analiza, 1), (data, 2), (mining, 1), (noutate, 1), (tehnica, 1)}
{(data, 1), (informatie, 1), (mining, 1), (noutate, 1), (tehnica, 1)}
{(data, 1), (tehnica, 1)}
22/ 25
Bibliografie
Exemplific
ari ale tipurilor de indecsi
analiza
data
informatie
mining
noutate
tehnica
{(Doc1,
{(Doc1,
{(Doc2,
{(Doc1,
{(Doc1,
{(Doc1,
1)}
2), (Doc2,
1)}
1), (Doc2,
1), (Doc2,
1), (Doc2,
23/ 25
Bibliografie
Exemplific
ari ale tipurilor de indecsi
analiza
data
informatie
mining
noutate
tehnica
{(Doc1,
{(Doc1,
{(Doc2,
{(Doc1,
{(Doc1,
{(Doc1,
1:
2:
1:
1:
1:
1:
<5>)}
<1, 6>), (Doc2, 1: <2>), (Doc3, 1: <1>)}
<4>)}
<2>), (Doc2, 1: <3>)}
<4>), (Doc2, 1: <5>)}
<3>), (Doc2, 1:<1>), (Doc3, 1: <2>)}
24/ 25
Bibliografie
Bibliografie
25/ 25