INTERNET Curs: Tehnologia informatiei n cercetare Mat. Gabriela MAILAT Ing. Corina POP Prof.dr.ing. Elena HELEREA 2 CUPRINS 1. Introducere 2. Ce este o baz de date Web 3. Metode de indexare 4. Programe de selectare 5. Unelte pentru cutarea informaiei pe internet 6. Concluzii 3 Introducere World Wide Web, prescurtat WWW, este cea mai important component a Internetului. Este o interfat multimedia ce presupune posibilitatea accesului la surse ce includ grafice i figuri, imagini, sunete i filme bazate pe tehnologia hypertext. Leag documentele ntre ele prin conexiuni, formnd un pienjeni (web). 4 Gsirea documentelor pe Web este dificil: nu exist un format standard de descriere a resurselor din Internet Exist diferite instrumente de cutare care opereaz n moduri diferite. Nu este o metod indicat pentru regsirea informatiilor referitoare la un anumit subiect. Introducere 5 Instrumentele de cutare folosesc urmtoarele metode de regsire a informatiilor: cutarea dup cuvinte cheie sau expresii, mecanismele booleene, proximitatea, trunchierea etc. Regsirea unei resurse folosind adresa (URL) este util i rapid dar existposibilitatea modificrii URL-ului datorit caracterului dinamic al Internet-ului. Introducere 6 Ce este o baz de date Web (Web database) ? O baz de date Web este o list organizat de pagini web. O astfel de list poate fi imaginat ca un gigantic repertoar ce contine un surogat al fiecrei pagini nregistrate n list (practic prti mici din acea pagin, cum ar fi titlul, antetul etc). 7 Ce este o baz de date Web (Web database) ? Crearea acestei liste cu surogate ale paginilor poart numele de indexare i fiecare baz de date web o realizeaz n stilul su caracteristic. 8 Ce este o baz de date Web (Web database) ? Pentru utilizatorul final, baza de date web furnizeaz o interfat ce are ca i caracteristic fie un cmp special n care utilizatorul tasteaz cuvintele dup care va efectua cutarea (vezi interfata cu utilizatorul de la Google), o list cu directoare din care utilizatorul poate alege legtura dorit (vezi Yahoo directories). 9 Metode de indexare Exist dou modalitti mai importante de indexare a informatiei n timpul generrii bazelor de date web: indexarea full-text indexarea manual. 10 Metode de indexare Indexarea full-text se caracterizeaz prin includerea tuturor cuvintelor dintr-o pagin n baza de date pentru cutare, cu ajutorul unor programe speciale de calculator numite pianjeni sau roboti (spiders sau robots). Altavista i Google folosesc pe scar larg aceast tehnic de indexare. Indexarea full-text permite s regsim toate referirile la un anumit termen din documentul indexat. 11 Metode de indexare Indexarea manual n acest caz o persoan examineaz paginile ce urmeaz a fi indexate i decide asupra ctorva cuvinte (fraze) cheie ce descriu cel mai bine informatia continut n respectiva pagin. Permite utilizatorului s regseasc mai multe legturi utile n urma cutrii, tocmai pentru c un om i nu o main a ales cuvintele cheie ce au fost incluse n indexul bazei de date. 12 Metode de indexare Aceast tehnic de indexare este folosit n cazul serviciilor de directoare de pe web (Yahoo directories sau Magellan). 13 Programe de selectare (Cum selecteaz bazele de date web ce pagini vor fi indexate ?) Foarte multe servicii de cutare folosesc programe automate, numite "spiders" sau "robots" (pianjeni sau roboti), ce cltoresc de la site la site ( = a se citi colecti de pagini web) cutnd pagini WWW nou aprute sau modificate substantial. 14 Programe de selectare Exist trei clase de baze de date web: baze de date ce monitorizeaz TOATE categoriile de pagini WWW; baze de date ce monitorizeaz NUMAI paginile WWW considerate populare (n principiu cele cu numr mare de vizitatori); baze de date ce monitorizeaz NUMAI paginile WWW ce ndeplinesc anumite criterii (legate fie de calitatea informatiei furnizate, fie de tipul de informatie urmrit ex. medical, tiintific, tiri etc). 15 Unelte pentru cutarea informaiei pe Internet i. Motoare de cutare ii. Directoare web (anuare online, repertoare tematice) iii. Biblioteci virtuale iv. Invisible (deep) Web v. Motoare de meta-cutare (metasearch engine) vi. Utilitare de cutare de tip desktop 16 Unelte pentru cutarea informaiei pe Internet i. Motoare de cutare Un motor de cutare este definit ca un serviciu de regsire a informatiilor stocate n bazele lor de date, care descrie principalele resurse din Web. O alt definitie: 17 Un motor de cutare este o baz de date continnd pagini Web ce pot fi regsite pe baza unor cuvinte cheie i care continu s scaneze Internetul, cu ajutorul unor programe automate (spiders, robots) n cutare de pagini noi. Informatia rezultat n urma activittii robotilor este apoi indexat i stocat n baza de date. Unelte pentru cutarea informaiei pe Internet 18 La lansarea unei cutri se exploreaz de fapt coninutul bazelor de date, n care sunt stocate informatii colectate automat de roboti i nu Web-ul n mod direct. Se recomand utilizarea a cel putin dou utilitare pentru aceeai cerere formulat datorit modului propriu de functionare a fiecrui motor de cutare i a paginilor web existente (diferite de la un utilitar la altul). Unelte pentru cutarea informaiei pe Internet 19 Motoarele de cutare se mpart n dou categorii: 1. Motoare care functioneaz dup modelul directorului (arborelui de subiecte), de fapt dup un ghid web n care locatiile sunt organizate pe subiecte i subsubiecte, ntr-o structur ierarhic, pornind de la un subiect general i ajungnd la subiecte cu caracter din ce n ce mai specifice. Unelte pentru cutarea informaiei pe Internet 20 2. Motoare care functioneaz dup modelul indexului de cutare, n cazul crora soft-urile sunt cale care efectueaz cutarea dup cuvinte cheie, bazndu-se pe tehnici de indexare computeriate, rezultatele obtinute fiind prezentate ntr-una sau mai multe pagini web, care ofer o list de locatii aranjat n ordinea probabilittii de potrivire a ceea ce se caut. Unelte pentru cutarea informaiei pe Internet 21 Unelte pentru cutarea informaiei pe Internet Motoare de cutare renumite: Google (www.google.com) AlltheWeb (www.alltheweb.com) MSN (www.msn.com) Teoma (www.teoma.com) AltaVista (www.altavista.com) WiseNut (www.wisenut.com) 22 Unelte pentru cutarea informaiei pe Internet ii. Directoare web (anuare online, repertoare tematice) Un serviciu de directoare web este o colectie de pagini Web selectionate i organizate ierarhic n categorii de subiecte de ctre un editor uman. Un concept mai selectiv este cel de bibliotec virtual, care este un director web ce include legturi spre pagini cu informatie de nalt specializare, pe domenii alese de editor. 23 Unelte pentru cutarea informaiei pe Internet Serviciile de directoare acoper i indexeaz o portiune mult mai mic din paginile WEB existente, comparativ cu motoarele de cutare. Dar folosirea lor poate duce la regsirea unor rezultate ale cutrii mult mai relevante pentru utilizator. 24 Unelte pentru cutarea informaiei pe Internet Cele mai extinse servicii de directoare web indexeaz cel mult cteva milioane de pagini, comparativ cu cele cteva miliarde indexate de ctre motoarele de cutare mai importante. Serviciile de directoare NU interogheaz direct paginile WEB, ci caut n interiorul bazei lor de date. Rezultatul cutrii poate duce la returnarea unor rezultate, care nu mai au relevant. 25 Unelte pentru cutarea informaiei pe Internet O serie de motoare de cutare sunt de fapt unelte hibride, fiind n acelai timp att motoare de cutare ct i servicii de directoare (Google, de exemplu, unul dintre cele mai cunoscute motoare de cutare, are i un serviciu de directoare, bazat pe solutia Open Directory Project). 26 Unelte pentru cutarea informaiei pe Internet Dintre serviciile de directoare web, mai cunoscute sunt : Yahoo! (www.yahoo.com) Google Directory (www.google.com) Open Directory Project (ODP) (http://dmoz.org) Zeal (www.zeal.com) JoeAnt (www.joeant.com) Gimpsy (www.gimpsy.com) 27 Unelte pentru cutarea informaiei pe Internet Motoare de cutare versus servicii de directoare Cele mai uzuale modalitti de accesare a paginilor WEB se regsesc n aa numitele motoare de cutare, respectiv n aa numitele directoare web. 28 Unelte pentru cutarea informaiei pe Internet Modaliti de cutare a informaiei Motoarele de cutare permit utilizatorului s foloseasc orice termeni de cutare (combinatie de termeni) dorete, motorul cutnd aceti termeni n baza de date i returnnd paginile care contin aceste combinatii de termeni. 29 Unelte pentru cutarea informaiei pe Internet Servicii de directoare web Serviciile de directoare web au paginile organizate n baza de date pe subiecte. Paginile cu informatia dorit pot fi selectate navignd prin acest arbore de directoare. 30 Unelte pentru cutarea informaiei pe Internet Navigarea prin structura directoarelor web poate fi un foarte bun nceput pentru cutarea informatiei dorite, cu conditia ca topicul ales sa fie considerat ca subiect pentru o arborescent de directoare. 31 Unelte pentru cutarea informaiei pe Internet v Site-ul Yahoo include att un motor de cutare ct i un arbore de directoare web. Diferenta fat de un motor de cutare obinuit este dat de faptul c motorul de cutare al Yahoo caut cuvintele cheie doar n interiorul directoarelor web din baza de date a Yahoo. 32 Unelte pentru cutarea informaiei pe Internet Din acest motiv motorul de cutare al site- ului poate fi folosit cel mult pentru a identifica zona din arborele de directoare ce contine informatia dorit. 33 Unelte pentru cutarea informaiei pe Internet Prezentarea rezultatelor Odat ce au fost introdui termenii de cutare, serverul i caut n baza de date web indexat i returneaz lista cu rezultate. Din cauza multitudinii de legturi cu informatie nerelevant pentru utilizatorul ce a efectuat cutarea, trebuie subliniate dou concepte deosebit de importante n evaluarea listei cu rezultate ale cutrii: rata de relevan (relevancy ranking), respectiv rezumatul (abstract) ce nsotete legtura ctre pagin. 34 Unelte pentru cutarea informaiei pe Internet Paginile gsite n urma cutrii sunt aproape ntotdeauna prezentate n ordinea relevantei lor, n conformitate cu termenii dup care s-a efectuat cutarea. 35 Unelte pentru cutarea informaiei pe Internet n cazul celor mai multe servicii de cutare web se poate observa c aproape fiecare legtur spre o pagin considerat relevant este nsotit de un scurt rezumat al continutului, multe servicii recurgnd chiar la sublinierea (ngoarea) termenilor folositi n respectivul rezumat. 36 iii. Biblioteci virtuale a) Biblioteci virtuale de uz general: Librarians' Index to the Internet (www.lii.org) INFOMINE (www.infomine.com) Internet Public Library (www.ipl.org) The WWW Virtual Library (vlib.org) Academic Info (www.academicinfo.net) Internet Scout Project (scout.wisc.edu) BUBL Link (academic resources) (bubl.ac.uk/link/) Unelte pentru cutarea informaiei pe Internet 37 b) Biblioteci virtuale de specialitate (orientate spre anumite domenii): Project Gutenberg (www.gutenberg.org) - beletristic National Academies Press (www.nap.edu) - tiint Free books for doctors (www.fb4d.com) - medicin The free management library (www.managementhelp.org) - management Unelte pentru cutarea informaiei pe Internet 38 iv. Invisible (deep) Web Reprezint colectii de informatii online stocate n baze de date accesibile pe Web, dar care, din diferite motive, nu sunt indexate de motoarele de cutare traditionale. Aceste servicii pot fi ntlnite i sub numele de servicii speciale de cutare (specially search engines). Unelte pentru cutarea informaiei pe Internet 39 ProFusion (www.profusion.com) Invisible-web (www.invisible-web.net) Complete Planet (www.completeplanet.com) Resource Discovery Network (www.rdn.ac.uk) Direct Search (http://www.freepint.com/gary/direct.htm) http://www.resourceshelf.com/ Unelte pentru cutarea informaiei pe Internet 40 v. Motoare de meta-cutare (metasearch engine) Un motor de meta-cutare este o unealt de cutare care trimite cerea dumneavoastr simultan ctre mai multe motoare de cutare clasice, servicii de directoare web i uneori spre colectii de tip invisible web. Unelte pentru cutarea informaiei pe Internet 41 Dup colectarea rezultatelor cutrii de la toate serviciile apelate, motoarele de meta-cutare elimin legturile aflate n duplicat i, conform unui algoritm propriu combin rezultatele ntr-o singur list, acordndu-le i o rat de relevant. Majoritatea motoarelor de meta-cutare iau n considerare numai primele 10-20 de legturi din lista furnizat de fiecare motor de cutare apelat, rezultatele cutrii vor fi foarte bune, din punctul de vedere al relevantei. Unelte pentru cutarea informaiei pe Internet 42 Motoarele de meta-cutare NU au propriile baze de date web, ci le folosesc pe cele ale serviciilor apelate. Motoarele de meta-cutare nu permit nscrierea manual a unei pagini (site) n baza de date. Unelte pentru cutarea informaiei pe Internet 43 Unele dintre cele mai cunoscute motoare de meta-cutare sunt: Metasearch (www.metasearch.com) ez2Find (www.ez2find.com) Vivisimo (www.vivisimo.com) MetaCrawler (www.metacrawler.com) InfoGrid (www.infogrid.com) Infonetware (www.infonetware.com) iBoogie (www.iboogie.tv) Unelte pentru cutarea informaiei pe Internet 44 vi. Utilitare de cutare de tip desktop Un tip special de motoare de meta-cutare sunt utilitarele de cutare de tip desktop (client side search software). Aceste utilitare sunt programe ce pot fi descrcate de pe Internet i instalate pe propriul calculator (local). Principiul lor de functionare este oarecum similar cu al motoarelor de meta-cutare. Unelte pentru cutarea informaiei pe Internet 45 Cteva dintre cele mai utilizate utilitare de acest fel sunt: Google Desktop (desktop.google.com) Copernic (www.copernic.com) Arrow Search (www.rt-software.co.uk/arrow_search/) WebFerret (www.ferretsoft.com/download.htm) ProtoSearch (www.npccenterprises.com/products/protosearch2.shtml) Unelte pentru cutarea informaiei pe Internet 46 Motoarele de meta-cutare sunt unelte complementare excelente, ns datorit unor considerente (numr relativ mic de legturi luate n considerare de la fiecare serviciu apelat, imposibilitatea de a folosi eficient tehnici avansate de cutare etc. ) NU pot elimina necesitatea folosirii unor motoare de cutare clasice. Unelte pentru cutarea informaiei pe Internet 47 CE UNELTE DE CUTARE SE FOLOSESC ? 1. Dac cunoatei exact ce tip de informaie dorii s aflai, este recomandat folosirea motoarelor de cutare. De exemplu pentru a gsi informatii despre pal sau wood puteti folosi motoarele de cutare, deoarece informatia nu este suficient de specific pentru a fi subiectul unui arbore de directoare, dar domeniul este suficient de bine conturat pentru a nu fi necesar recurgerea la un motor de meta-cutare. Unelte pentru cutarea informaiei pe Internet 48 2. Dac veti cuta informaii despre un anumit termen sau o combinaie de termeni i dorii o analiz exhaustiv a temei analizate, este de preferat recurgerea la motoare de meta-cutare, ce pot apela simultan mai multe servicii web (10 -12 motoare de cutare sau directoare web). De exemplu, cutarea dup termenul composite (vezi composite plates) Unelte pentru cutarea informaiei pe Internet 49 3. Dac doriti s cutati informaii generale despre subiecte cu grad ridicat de popularitate, este indicat folosirea serviciilor de directoare web. Astfel dac doriti informatii despre industrial plants, este mult mai indicat s folositi serviciul de directoare Yahoo, n care puteti naviga cu uurint, informatia este bine organizat i exist i facilitti de cutare prin arborele de directoare. Unelte pentru cutarea informaiei pe Internet 50 4. Dac doriti, informaii pertinente legate de anumite domenii ale literaturii, tiinei etc. este preferabil folosirea serviciilor tip bibliotec virtual. Unelte pentru cutarea informaiei pe Internet 51 5. Dimpotriv, dac doriti informaii n timp real sau informaii al cror coninut se schimb dinamic (tiri, prognoze meteo, mersul trenurilor) folositi baze de date web specializate (invisible or deep web). Unelte pentru cutarea informaiei pe Internet 52 Multi dintre detintorii de servicii WEB au ales s i diversifice activitatea furniznd mai multe servicii sub aceeai interfat utilizator. Astfel s-a cristalizat un nou concept, acela de PORTAL WEB. Unelte pentru cutarea informaiei pe Internet 53 Portalul Web Sub acest termen se ntelege n general un site WEB ce ofer o gam larg de servicii i resurse online, cum ar fi: e-mail, forumuri de discutii, motoare de cutare, directoare web, comert electronic etc. (a se vedea www.yahoo.com, unul dintre cele mai cunoscute servicii de cutare, transformat ntr-un portal). Unelte pentru cutarea informaiei pe Internet 54 Concluzii Motoare de cutare Motoarele de cutare sunt probabil cea mai utilizat cale de accesare a informatiei stocate n bazele de date Web. Principalii pai necesari pentru a utiliza eficient un motor de cutare sunt urmtorii: 1. Formulati-v atent nevoia de informare. ncercati s faceti aceasta ct mai simplu i specific cu putint; 2. Spargeti cererea de mai sus ntr-o serie de termeni de cutare; 3. Gsiti sinonime pentru fiecare termen identificat; 55 4. Atunci cnd este posibil, recurgeti la fraze (termeni specificati n ghilimele); 5. Combinati sinonimele termenilor de cutare prin intermediul operatorului OR i legati aceste combinatii prin intermediul operatorului AND; 6. Analizati circa 30 de rezultate nainte de a cuta din nou; 7. Dac este posibil, nainte de a rencepe cutarea, folositi pagini cu informatie similar celei cutate pentru a identifica noi termeni de cutare i sinonime ale acestora. Concluzii Motoare de cutare 56 Concluzii Directoare web Directoarele Web sunt locuri excelente de pornire n cutarea informatiei pe Internet, cu conditia s gsiti un arbore de directoare care s trateze tema cutat (subiectul dorit). Dac ns tema cutat nu a fost selectionat de editorul serviciului ca rdcin pentru un arbore de directoare, este de preferat s renuntati la folosirea acestui tip de serviciu de cutare i s recurgeti la un motor de cutare. 57 Ca regul general este recomandat s v ncepeti cutarea informatiei pe Internet folosind un arbore de directoare i s recurgeti abia apoi, dac este necesar, la un motor de cutare, ce dispune de mult mai mult informatie indexat n bazele de date, dar necesit o experient mult mai mare din partea utilizatorului, pentru a putea fi utilizat eficient. Concluzii Directoare web
O abordare simplă a SEO: Cum să înțelegi elementele de bază ale optimizării pentru motoarele de căutare într-un mod simplu și practic, printr-o cale de descoperire nespecializată pentru toată lumea