Sunteți pe pagina 1din 2

Un motor de cutare este o aplicaie software care este proiectat pentru a cuta resurse digitale cum ar fi pagini web,

text, tiri, imagini, video etc. introducnd cuvinte cheie. Motoarele de cutare sunt constituite din trei elemente majore. Primul i cel mai important este partea de "spider" sau partea de "Crawler" (A se tr). Spider-ul reprezinta partea programului care se ocupa de parcurgerea paginilor WEB si extragerea informatiilor considerate semnificative pentru respectivele pagini. Spiderul viziteaz pagina, citete coninutul, n urma cruia urmrete linkurile afiate spre pagini interioare sau spre alte site-uri. Totul este ct se poate de simplu, linkurile putnd fi considerate elemente de legtur ntre dou site-uri diferite sau ntre paginile aceluia site. Pe baza acestui fapt putem deosebi linkuri interioare (care leag paginile aceluia site) i linkuri exterioare (leag paginile a dou site-uri diferite). La baza acestor spidere se afl un anumit algoritm, o periodicitate, adic un spider se rentoarce la site, regulat, n fiecare zi/sptmn/lun, pentru a colecta date noi despre eventualele schimbri survenite pe acesta. Datele obinute de pe urma spiderului sunt trimise automat la elementul doi al unui motor de cutare, mai exact Indexul. Indexul, supranumit de multe ori i catalog, funcioneaz ca i un sertar uria de informaii. Toate datele obinute de ctre spider sunt catalogate, iar n cazul unor schimbri survenite pe un site, datele se reactualizeaz. Exist cazuri cnd, schimbrile detectate de ctre spider nu vor fi automat indexate. Exist un interval cnd putem afirma despre un site, sau o pagin nou, c a fost vizitat de spider, dar nu a fost nc indexat. n urma acestui fapt, paginile vizitate de spider nu vor aprea n rezultatele motoarelor de cutare doar abia dup indexarea acestora. Ultima component a unui motor de cutare este partea de software (cea care genereaz rezultatele pe baza indexrii). Rankingul este procesul care const n clasarea automat a informaiilor n index, astfel inct, n urma unei interogri, paginile cele mai pertinente s se afieze n primele listri. Scopul clasamentului este de a afia n primele 10 pan la 20 de listri, documentele care rspund cel mai bine ntrebarii de cutare. Motoarele elaboreaz n permanen noi algoritmi (formule matematice utilizate pentru a clasa documentele). Aceti algoritmi sunt un adevrat factor de difereniere i sunt dect foarte rar cunoscui de ctre public, ba chiar n anumite cazuri sunt protejai prin anumite brevete. Partea de soft poate fi considerat cea mai complex parte a unui motor de cutare. Dintre atribuiile sale merit toate atenia: cutarea prin Index i afiarea rezultatelor. Astfel partea ceea mai interesant, dar i ceea mai dificil din punct de vedere al Optimizrii, este partea de soft, adic - anticiparea algoritmului utilizat, n vederea obinerii unor poziionri mai bune pentru anumii termeni de cutare.

Semantic web. Urmtoarea generaie a WWW (Tim Berners-Lee) Utilizat nu numai pentru a fi parcurs de utilizatorii umani prin browsere ci i de programe care: Acceseaz selectiv (caut i filtreaz ) paginile (resursele) web, efectueaz anumite prelucrri ale acestora,eventual genereaz alte resurse web. O ontologie reprezint conceptualizarea unui domeniu de cunoatere ntr-un format destinat a fi procesat de calculator, formatul modelnd entiti, atribute, relaii i axiome. Din punct de vedere formal, conceptualizrile se pot defini n maniera prezentat n continuare, conform *Guarino, 1998+. Pentru a fi ns utilizate de webul semantic ontologiile trebuie s fie utilizate de calculatoare i astfel trebuie s fie exprimate n limbaje pe care s le poat nelege uor i calculatoarele i oamenii. Astfel, principalele limbaje de definire a ontologiilor sunt bazate pe XML un limbaj care este foarte uor interpretabil de calculatoare. RDF (Resource Description Framework) este un limbaj bazat pe sintaxa XML ce utilizeaz un model de reprezentare a grafurilor pentru a exprima fapte despre resurse identificate prin URI-uri (Uniform Resource Identifier). URI-urile reprezint pentru RDF corespondentele cheilor primare din modelele relaionale prin faptul c un URI va identifica n mod unic o resurs. Elementul de baz al unui document RDF este tripletul. Un triplet este o propoziie ce are un subiect, predicat i un obiect (proprietate). Subiectul i predicatul sunt resurse identificate prin URI-uri, iar obiectul poate fi o resurs sau o valoare efectiv. OWL Diferite limbaje de definire ale ontologiilor ofer diferite faciliti. Cea mai recent dezvoltare n limbajele standard de definire a ontologiilor este OWL, produs de consoriul World Wide Web (W3C). La fel ca i RDF, OWL face posibil descrierea conceptelor dar, n plus, ofer multe alte faciliti. Are un set mai bogat de operatori (de exemplu: i, sau, negare). Se bazeaz pe un model logic diferit care d posibilitatea conceptelor s fie definite i n acelai timp descrise. Concepte complexe pot fi definite pornind de la concepte simple. Mai mult, modelul logic permite utilizarea unui reasoner[1] care verific dac toate definiiile i declaraiile din ontologie sunt mutual consistente i poate, deasemenea, recunoate ce concepte se potrivesc i sub care definiii. Reasoner-ul ajut astfel la meninerea unei ierarhii corecte. Aceast ierarhie este folositoare atunci cnd lucrm cu clase ce au mai mult de un printe.

S-ar putea să vă placă și