Documente Academic
Documente Profesional
Documente Cultură
Motoarele de Cautare
Motoarele de Cautare
Motor de cutare
Un motor de cutare este un apelabil program cuttor, care acceseaz Internetul n mod automat
i frecvent i care stocheaz titlul, cuvinte cheie i, parial, chiar coninutul paginilor webntr-o baz
de date. n momentul n care un utilizator apeleaz la un motor de cutare pentru a gsi o
informaie, o anumit fraz sau un cuvnt, motorul de cutare se va uita n aceast baz de date i,
n funcie de anumite criterii de prioritate, va crea i afia o list de rezultate (englez: hit list ).
Problema nu este de loc trivial, deoarece:
exist deja peste 100 milioane de situri web, sumnd n total miliarde de pagini web, distribuite
pe tot globul
coninutul acestori pagini nu este static, ci chiar extrem de dinamic (se schimb frecvent)
rspunsul la o comand de cutare trebuie s vin repede, n general n mai puin de o jumtate
de secund, chiar atunci cnd lista de rezultate conine, s zicem, zeci de mii de pagini web
potrivite la criteriile de cutare folosite.
82,7%
Yahoo!
6,5%
Baidu
4,7%
Bing
3,7%
Ask
0,5%
Aol
0,4%
Excite
0,0%
Pentru crearea acestor motoare de cutare este necesar un spider (bot, spider, crawler)
care este realizat ntr-un limbaj care poate fi Perl, Ruby, Java, Php. Acesta extrage linkurile
utile. Apoi aceste linkuri se gsesc ntr-o form prelucrat i filtrat prin metode specifice
ntr-o baz de date.
1.Motoarele care au propia lor baza de date (de ex. Google si AllTheWeb FAST)
2.Motoarele care folosesc bazele de date ale unor alte motoare (de ex.
MSN foloseste serviciile LookSmart si Inktomi)
3.Motoarele care folosesc atit propria baza de date cit si pe cele ale altor
motoare (de ex. Yahoo care foloseste baza de date proprie dar si pe cea a
motorelor Google, Inktomi (pe care l-a cumparat) si Overture (pe care l-a
cumparat).
AltaVista
MSN
Ask
Neuralcoder
Baidu
Panguso
Bing
Qwant
Blekko
Sogou
DuckDuckGo
Entireweb
Spezify
Exalead
Trovi
Excit
V9
Gigablast
Voila
Volunia
GrayMatter
Yahoo!
Info.com
Yandex
LeMoteur
Yauba
Lycos
Soso
ALPIR
GazoPa
Google Images
TinEye
YaCy
Google
Domeniul google.com a fost nregistrat pe 14 Septembrie 1997 de Larry Page i Sergey Brin, doi
studeni, atenie tot la Universitatea Stanford,California. Acetia au avut ideea n 1996 n cadrul unui
proiect, s indexeze paginile de INTERNET nu dup numrul de apariii al termenului de cutare n
coninutul lor, ci dup numrul de legturi spre acea pagin provenite de pe alte pagini WWW. Acest
lucru, st de fapt la baza algoritmului PageRank algoritmul de cutare al Google. Pe baza acestui
algoritm, fiecare pagin web poate avea un anumit rang cuprins ntre 0 (minim) i 10 (maxim). Cu
ct rangul este mai mare, cu att aceasta apare mai repede la o cutare pe WWW. Google
Corporation a fost fondat n 1998 i n decurs de 13 ani a ajuns cel mai cunoscut motor de cutare
de pe WWW.
Excite
A fost creat n 1993 de cinci studeni (Graham Spencer, Joe Kraus, Ben Lutch, Mark Van Haren,
Ryan McIntyre i Martin Reinfried) la Universitatea Stanford,California n cadrul unui proiect de curs
denumit Architext Software. Devenit Excite, acesta a falimentat n 2001. n prezent 3 dintre fondatori
sunt angajai Google, 2 sunt ntreprinztori particulari iar ultimul este specializat n jocuri pe
calculator. http://www.excite.com/
Yahoo
A fost creat n 1994 (din nou) n campusul Universitii Stanford, California de doi studeni (David
Filo and Jerry Yang), iniial pentru a putea ine evidena link-urilor WWW cu informaii folosite pentru
elaborarea lucrrii de doctorat. A fost lansat la nceput sub denumirea de Jerry and Davids Guide
to the World Wide Web ns a fost redenumit ulterior YAHOO acronim pentru (Yet Another
Hierarchical Officious Oracle). Vestea s-a rspndit pe www, astfel nct, n toamna lui 1994 site-ul a
fost accesat ntr-o singur zi de 100.000 de vizitatori. n 1995 s-a fondat Yahoo! Inc. care a ajuns
astzi s fie accesat lunar de peste 350 milioane de utilizatori, fiind al doilea motor de cutare dup
Google. https://www.yahoo.com/
Altavista
La ptrunderea internetului pe scar larg n Romnia, undeva n anul 1996, cel mai utilizat motor
de cutare era Altavista. Lansat pe 15 Decembrie 1995, de ctre cercettorii de la Digital Equipment
Corporations Western Research Laboratory din Palo Alto, California, a furnizat din prima clip o
baz de date indexabil ce coninea peste 16 milioane de documente. La sfritul zilei de 15
Decembrie 1995, peste 300.000 de utilizatori vizitaser pagina Altavista. Dup primul an de
funcionare Altavista servea peste 19 milioane de cereri de cutare zilnic. Pe parcursul timpului
Altavista a patentat foarte multe idei cu privire la cutarea pe INTERNET. n 2003 Altavista a fost
achiziionat de Ouverture pentru 140 de milioane de dolari. La sfritul lui 2003, Yahoo a cumprat
Ouverture, astfel nct Altavista a sfrit prin a avea motorizare Yahoo.
http://search.yahoo.com/?fr=altavista
Hotbot
Lansat n Mai 1996 de ctre Wired Magazine, HotBot a devenit n scurt timp un motor de cutare
apreciat care avea n spate bazele de date Inktomi, LookSmart i din 1999 Open Directory. Lycos a
achiziionat HotBoot n 1998 i pentru patru ani a aplicat tehnici greite de marketing i de
promovare care au dus compania aproape de faliment. Din 2002 a fost relansat iar n prezent ofer
informaii pe baza bazelor de date deinute de Google i Ask Jeeves (Teoma) motorizare
Google. http://www.hotbot.com/
Bing
Proprietate a gigantului Microsoft, Bing a fost lansat de ctre CEO Microsoft, Steve Ballmer pe 28
Mai 2009. Bing a fost mai nti Live Search dup care a fost redenumit MSN Search pentru ca apoi
sa devin Windows Live Search. MSN Search a fost lansat n 1998 i a depins pn n 1999 de
baza de date Inktomi. Din 1999 a avut motorizare Altavista. ncepnd din 2006, MSN Search a
devenit Windows Live Search cu motorizare Microsoft. n 2009 Yahoo i Bing au ncheiat un acord
pe 10 ani prin care Yahoo urmeaz s i schimbe motorizarea astfel nct aceasta s devin
Microsoft. n schimbul acestui acord, Yahoo obine 88 % din toat publicitatea pentru primii 5 ani.
La momentul actual, dupa cum am prezentat mai sus, toate cutrile pe WWW sunt motorizate de
Google, Yahoo si Microsoft, primele doua tehnologii fiind aprute la Standford University
California. http://www.bing.com/
Sogou Inc este o filial a Sohu.com, Inc. fondat la 9 august 2010. Este
proprietarul i dezvoltator de Sogou (chinez: ; pinyin: Sugu, literalmente:
"Cutai cine") motor de cutare, Sogou de intrare i browser-ul Sogou. Motoare
de cutare i web aplicatii *edita+
Sogou motor de cutare (Sogou.com) a fost lansat la data de 3 august 2004.
Produsele aplicatii web Sogou sunt concepute pentru a clasifica informaii on-line,
cum ar fi muzica, imagine, un clip video, tiri, hart i informaii vertical.\
Volunia a fost un motor de cutare web (sau motor de cautare social) [1] [2] [3]
creat de Massimo Marchiori. [4] [5] A fost lansat n versiune beta doar pentru
utilizatorii nregistrai putere la 06 februarie 2012 *6+ i a mers direct la 14 iunie
2012. Volunia, numit ca "motorul de cutare al viitorului", *7+ a fost speculat s se
bazeze pe tehnologia Hyper cutarea. *8+ *9+ la 08 iunie 2012 Marchiori a anunat
cu o scrisoare deschis *10+ c el a fost exclus din proiectul su: *11+ sase zile mai
tarziu, pe 14 iunie 2012, site-ul a mers live, dar a ncetat s funcioneze n luna
februarie 2014.
Numele Volunia provine din cuvintele "Volo" (de zbor) i "Luna" (luna), pentru c aa cum spune Marchiori -. A vrut s evoce Saltului Cuantic motor de cutare su
social a fost ncercarea de a oferi [1] Proiectul Volunia are a fost dezvoltat n
ntregime n Italia: sediul central se afl n Padova, serverele sunt situate n
Sardinia i gzduit de Tiscali, *1+, iar ntreaga echip, format din 14 persoane,
este italian *necesit citare+.
Volunia difer de la motoarele de cutare normale n care, n timp ce trte pe
site-urile web i indexurile construiete clasamentul folosind comentariile i
opiniile altor utilizatori. Serviciul Volunia permite oamenilor s interacioneze unii
cu alii n fiecare pagin pe care le viziteaz, precum i cu proprietarii site-uri web.
Volunia foloseste un sistem similar cu Sidewiki. Volunia introduce, de asemenea,
pentru prima dat un "fly-over" hart vizualizare pentru fiecare site-ul web, n
cazul n care fiecare site-ul web este transformat ntr-o metafor ora,
reprezentnd, de asemenea, informaii sociale. *12+ *13+ n conformitate cu
Marchiori, Volunia nu este o concurent pentru motoarele de cutare existente,
stau la un nivel alternativ. *7+ n ciuda ceea ce a spus Marchiori, unii oameni din
comunitatea de internet considera Volunia o provocare i un potenial concurent
pentru Google .
Judy.ro
http://www.judy.ro/
AltaVista
Link-ul Alta Vista:
http://search.aol.ru/aol/search?&query=a
lta+vista&invocationType=tb50winampa
b
Pagina principala:
Alta Vista al firmei Digital este un puternic motor de cautare atat pentru Web,cat si
pentru Usenet.
Interogarile sale sunt precise, iar cele avansate ofera posibilitatea trierii exacte a
informatiei cautate. La prima interogare, Alta Vista informeaza despre numarul
documentelor gasite pentru fiecare cuvant specificat.
Apoi, afiseaza rezultatele, oferind titlul si URL-ul, primele cateva cuvinte din text,
dimensiunea fisierului, precum si data in care Alta Vista a inregistrat intrarea respectiva
in baza de date. Rezultatele primesc punctaje, fiind afisate in ordinea scorului obtinut.
De regula, Alta Vista cauta doar pe Web, dar ofera si optiunea de cautare in grupurile
de stiri Usenet.
Rafinarea cautarii se face usor, cu ajutorul operatorilor logici AND, OR si NOT,
completati de directiva NEAR, care specifica un cuvant din imediata apropiere.
Cautarea avansata permite limitarea rezultatelor in functie de data, limba etc.,
acordarea punctajului facandu-se dupa criterii specificate. Toate acestea fac din Alta
Vista un sit excelent pentru a incepe o cautare.
MSN Search
http://www.msn.com/
Critic
Un URL introdus greit n Internet Explorer duce automat la MSN Search.
Acest lucru este vzut de majoritatea criticilor ca o modalitate de cretere a
traficului prin acest motor de cutare .Dei exist un meniu de configurare
care permite schimbarea motorului de cutare implicit n Internet
Explorer,Google , principalul competitor al MSN, nu se afl n list.
Limbi
MSN Search este disponibil n mai multe versiuni de limb. Printre acestea
se afl chinez simplificat, chinez tradiional, ceh, danez, englez,
eston, finlandez, francez, german, greac, maghiar, italian,
japonez, corean, leton, lituanian, norvegian, olandez, polonez,
portughez, romn, rus, slovac, sloven, spaniol, suedez i turc.
Website: http://www.abstract-co.ro
Hoinareala pe Web poate fi o joaca, dar a gasi exact ceea ce cauti nu este
un joc de noroc si trebuie sa folosesti un motor de cautare potrivit.
Numite si paianjeni (spiders) sau taratoate (crawlers), da- torita modului In
care umbla prin paginile web pentru a gasi ceva anume, motoarele de
cautare (search engines) sunt locurile preferabile pen- tru a Incepe un
voiaj prin aceasta lume. Ele navigheaza prin Internet, indexeaza ceea ce au
gasit, va dau posibilitatea de a verifica listele gasite si va ofera rezultatele
sub forma de link-uri.
Am selectat pentru prezentare sapte motoare mai importante, cu scop
gene-ral. Pe langa acestea, diverse site-uri ofera si alte moduri de cautare.
Directoarele Web (Web directories), cum ar fi Yahoo, folosesc si motoare
de cautare si datele organizate de editori umani pentru a raspunde
interogarilor noastre si pentru a cerne" informatiile gasite. Iar site-urile de
meta-cautare (meta-search sites) ofera un acces comod la mai multe
motoare de cautare, marind sansele de a gasi ceea ce cautati. Toate aceste
unelte au un punct comun: fiecare se proclama ca cea mai buna In a gasi
exact ceea ce cautati pe Internet.
mic icon cu care puteti deschide pagina respectiva Intr-o noua fereastra a
browser-ului.
Alta Vista _ un motor de camion Intr-o cursa de Formula 1.
Alte facilitati interesante sunt personalizarea (de exemplu, puteti stabili ca
totdeauna sa va returneze descrieri mai extinse ale site-urilor gasite) si
suportul pentru cautare In 6 limbi (engleza, franceza, italiana, germana,
spaniola
si
portugheza).
Un tool interesant este si refine care afiseaza cuvinte-cheie legate (sau
uneori nelegate) de subiectul cautat, pe care le puteti include sau exclude
din cautare. Desi puteti utiliza interogari In lim-baj natural (In cele 6 limbi
mentionate), utilizatorii care doresc sa realizeze interogari mai sofisticate
se vor orienta spre optiunea Advanced Search In care pot folosi operatori
booleeni, pot re- strange cautarile dupa data calenda- ristica, pot ordona
rezultatele si pot face cautari atat pe Web cat si pe Usenet utilizand un
numar de functii utile. Intrucat nu exista o interfata care sa va permita sa
alegeti aceste functii, trebuie sa le cunoasteti pentru a le folosi.
In concluzie, Alta Vista nu este un loc unde sa gasiti facilitati sofisticate.
Este un motor de cautare pur si simplu, pe care Il veti folosi cand aveti
nevoie
de
forta
bruta
Impotriva
Web-ului.
Excite
Operabilitatea si lista bine ordonata de link-uri ar fi putut face din Excite
(http:// www.excite.com) favoritul testului, daca acesta ar fi returnat ceea ce
cautam. In test, aproape jumatate din pagini au fost irelevante si un numar
uimitor de mare _ una din cinci _ au fost duplicate.
O lista de cuvinte suplimentare nu este de mare ajutor daca nu prea au
legatura
cu
subiectul.
Desi engine-ul ofera o cale de a vizualiza duplicatele prin listarea lor dupa
numele de domeniu (cate 40 pe o pagina, prin optiunea List by Web site),
veti pierde mult timp alegand ceea ce va intereseaza, mai mult decat cu
oricare alt motor de cautare, cu exceptia lui Open Text Index si a lui
Northern
Light.
Mai mult, cautarea cu Excite necesita ceva pregatire preliminara. Acesta nu
returneaza doar paginile bazate pe cuvintele pe care le-ati introdus, ci si pe
conceptele pe care engine-ul le considera apropiate. De exemplu,
introducand elderly people" (oameni batrani, In varsta), Excite va returna
si pagini despre structura populatiei In Thailanda. Aceasta abordare
(numita Intelligent Concept Extraction) produce o gama mai larga de
raspunsuri In comparatie cu alte motoare de cautare, astfel Incat trebuie sa
va alegeti cu grija cuvintele. Pe de alta parte, Excite va ofera o lista de
cuvinte suplimentare care sa va ajute In rafinarea interogarii.
Oricum, optiunea Power Search (cu facilitatile booleene echivalente doar
cu MUST si NOT) greu se poate compara cu sofisticatele mecanisme de
cautare
din
Alta
Vista
sau
HotBot.
Desi ofera un numar substantial de facilitati nelegate direct de cautare,
acestea nu compenseaza incapacitatea engine-ului Excite de a va aduce
pe
ecran
ceea
ce
cautati.
HotBot
Avand cea mai buna interfata grafica, HotBot (http://www.hotbot.com) este
castigatorul testului pentru toate felurile de cautari. Este de remarcat aici
numele firmei Inktomi, a carei tehnologie de cautare sta la baza motorului
HotBot si care a fost licentiata de Microsoft pentru propriul sau motor de
cautare
In
curs
de
realizare.
Desi ofera mai multe pagini irelevan-te decat Infoseek, HotBot este totusi
pe locul 2 In ce priveste acuratetea, rareori oferind link-uri la pagini care nu
mai exista, ceea ce este un indiciu clar ca indexurile engine-ului sunt la zi.
Portretul
unui
campion
_
HotBot
Uneltele extrem de flexibile fac foarte usoara constructia interogarilor complexe
direct
din
homepage.
De asemenea, puteti da clic pe unul din link-urile din bara de navigatie
pentru
a
accesa
respectiva
categorie.
Daca doriti sa cautati In pagini web, puteti stabili tipul cautarii: dupa titlu,
fraze exacte, URL (Universal Resource Locator _ adresa Internet) sau doar
Intr-un anumit domeniu (prin optiunea SuperSearch) si puteti stabili
perioada de timp si zona geografica. Puteti vizualiza Intre 10 si 100 de linkuri pe o pagina, cu descrieri sumare sau extinse sau doar URL-ul. Link-urile
pot fi des chise Intr-o fereastra separata, astfel Incat lista de unde ati pornit
va
ramane
vizibila
In
fereastra
originala.
SuperSearch, unealta de cautare avansata adauga noi facilitati: selectia
mediului (Java, VBScript si ActiveX), un domeniu de date calendaristice
mai detaliat si posibilitatea de a limita cautarile la anumite pagini sau siteuri.
Desi nu poate concura cu Excite sau Infoseek ca destinatie Web _ Ii
lipsesc serviciile suplimentare, ca e-mail gratuit, pagini de pornire
personalizate sau obisnuitele canale de descarcare a informatiilor (content
channels) _ sectiunea de link-uri va conduce la unele din cele mai bune
site-uri
de
pe
Web.
In concluzie, ca motor de cautare, HotBot este deocamdata #1 pe Web.
Infoseek
Infoseek (http://www.infoseek.com) este premiantul In ce priveste numarul
de pagini relevante returnate, dar nu a castigat concursul din cauza unui
lips
crucial:
o
unealta
avansata
de
cautare.
Infoseek _ foarte precis si cam atat: pentru cei care nu vor sa se complice
inutil.
Peste 70% din link-urile returnate de Infoseek au fost bine tintite, mai putin
de 3% au fost expirate (broken links), iar duplicatele au fost practic
absente.
Desi Infoseek gaseste repede paginile cautate, nu are facilitati de cautare
avansata, In locul acestora oferind niste butoane care limiteaza cautarea la
categorii generale, cum ar fi Web, newsgroups, news si companii.
Putati cauta fraze Intregi punandu-le Intre ghilimele, adrese Web sau nume
urile
Usenet.
Euroseek (http://www.euroseek.com) este un motor de cautare orientat mai
mult spre informatii europene, In care cautarea se poate face pe tari,
continente si domenii specifice, iar interfata poate fi afisata In una din
limbile
europene.
Polar Search (http://www.polarsearch. com) este un motor de cautare de
origine suedeza care se bazeaza pe tehnologia dezvoltata de firma
canadiana
Open
Text.
Metasearch
sites
Daca un motor de cautare este bun, mai multe nu pot fi decat si mai bune.
Aceasta este ideea care sta la baza meta-cautarii si a site-urilor de metacautare. Acestea va permit sa construiti o singura interogare, care este
trimisa
apoi
mai
multor
motoare
de
cautare.
All-In-One Search Page (www. albany.net/allinone) trimite interogarile la _
teoretic _ toate motoarele, directoarele sau site-urile specializate. I s-ar
putea spune de aceea unealta de mega-cautare, nu meta-cautare.
Ask Jeeves (www.askjeeves.com) va permite sa introduceti cautarile In
limbaj natural, dupa care va pune Intrebari aditionale (In engleza) pentru a
focaliza cautarea. Excelenta pentru noii veniti In domeniu.
Dogpile (www.dogpile.com) conduce meta-cautarile pe Web utilizand 14
motoare
diferite,
dar
nu
elimina
duplicatele.
EZ_Find at the River (www. theriver.com/TheRiver/Explore/ezfind.html) pur
si simplu foloseste cateva motoare de cautare In aceeasi pagina.
Find-It (www.itools.com/find-it/) seamana cu EZ-Find prin faptul ca va pune
la dispozitie multiple motoare de cautare, dar pe care le foloseste simultan.
Un site cu nume similar, Find It (www.sary.com/findit.html), ofera acces la
mai
multe
engine-uri,
dar
lucreaza
In
acelasi
fel.
Mamma (www.mamma.com) aplica meta-cautarile la doar sapte site-uri,
dar combina rezultatele si le reordoneaza folosind propriile criterii de
relevanta.
Metacrawler (www.metacrawler. com), unul din cele mai vechi si mai bune
unelte de meta-cautare, aduna paginile gasite la un mare numar de site-uri,
incluzand Lycos, Infoseek, Excite si Alta Vista. MiniCrawler, care opereaza
Intr-o ferestra discreta, este un mic campion In felul lui.
Metafind (www.metafind.com) lucreaza asemanator cu Dogpile, doar ca nu
intra In site-urile Usenet, FTP sau de stiri si omite descrierile paginilor
gasite.
Savvy Search (guaraldi.cs.colostate.edu:2000) este oferit de Universitatea
din Colorado. Interfata acesteia (o puteti alege In mai multe limbi, printre
care si romana) va permite sa va alegeti motoarele de cautare, apoi
organizeaza
rezultatele
si
elimina
duplicatele.
AccessCom (www.accesscom. net) va ofera o lista consistenta de motoare
de cautare, directoare si meta-cautatoare plus alte site-uri pe diferite
subiecte.
Web
Directories
Directoarele web _ printre care Yahoo este cel mai bun si cel mai cunoscut