Sunteți pe pagina 1din 83

UNIVERSITATEA OVIDIUS CONSTANT A

Facultatea de Matematic a si Informatic a specializarea master : Matematici Computat ionale si Tehnologii Informatice Moderne

Lucrare de disertat ie

MERS ALEATOR: TEORIA S I APLICAT II IN EVALUAREA MOTORULUI DE CAUTARE PE WEB

Indrum ator stiint ic: Prof. univ. dr. ALEXEI LEAHU

Student: STERECIU VIOREL

2004-2005

Cuprins
Cuprins List a de guri Introducere 1 Mers aleator - considerente teoretice si practice 1.1 Exemple mers aleator . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Propriet a tile mersului aleator . . . . . . . . . . . . . . . . . . . 2 World Wide Web - reprezentare ca o structur a 2.1 Teoria grafurilor . . . . . . . . . . . . . . . . . . 2.2 Web-ul ca o structur a de graf . . . . . . . . . . 2.3 Tipuri de grafuri pe web . . . . . . . . . . . . . de . . . . . . iii v vii 1 2 3

graf 7 . . . . . . . 7 . . . . . . . 9 . . . . . . . 12

3 Mers aleator pe o structur a de graf 15 3.1 Exemplu mers aleator pe un graf . . . . . . . . . . . . . . . . . 15 4 Realizarea unui mers aleator pe web: considerente teoretice 17 4.1 Lant uri Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5 Criterii de evaluare ale motorului de c autare pe web 5.1 Motorul de c autare pe web . . . . . . . . . . . . . . . . . . 5.2 Funct ionarea motorului de c autare . . . . . . . . . . . . . 5.3 Indexul motorului de c autare pe web . . . . . . . . . . . . 5.4 M asurarea calit a tii indexului motorului de c autare pe web TM 5.5 PageRank de la Google . . . . . . . . . . . . . . . . . . 5.6 Algoritmul PageRankTM . . . . . . . . . . . . . . . . . . . 5.7 Site-uri web cu indice PageRankTM mare . . . . . . . . . 5.8 Model calcul indice PageRankTM . . . . . . . . . . . . . . 5.9 Aarea indicelui PageRankTM . . . . . . . . . . . . . . . . iii 21 21 22 23 23 24 26 28 29 32

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

iv

CUPRINS

6 Matematica din spatele lui PagerankTM 35 6.1 Conceptul matematic PageRankTM . . . . . . . . . . . . . . . . 37 6.2 PageRankTM & siruri Markov . . . . . . . . . . . . . . . . . . . 39 7 Realizarea unui mers aleator pe web: experiment 7.1 Robot ii web - prezentare general a . . . . . . . . . . 7.2 Program Java pentru mers aleator pe web . . . . . 7.3 Despre WebSPHINX . . . . . . . . . . . . . . . . . 7.4 Experiment - mers aleator pe web . . . . . . . . . . 41 41 42 43 44

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

8 Evaluarea motorului de cautare pe web: experiment 49 8.1 Site-urile web prinse n experiment . . . . . . . . . . . . . . . . 49 8.2 Statistici experiment . . . . . . . . . . . . . . . . . . . . . . . . 51 9 Concluzii nale A WebSPHINX: termenii legali de licent a B Lista URL-urilor extrase la vizitarea http://www.edu.ro C Contabilizarea URL-urilor c atre http://www.edu.ro Bibliograe 57 59 61 73 75

List a de guri
1.1 Cazul m = 1 - Mers aleator n R1 . . . . . . . . . . . . . . . . . 1.2 Cazul m = 2 - Mers aleator n R2 . . . . . . . . . . . . . . . . . 1.3 Mers aleator de lungime 30 . . . . . . . . . . . . . . . . . . . . . 2.1 2.2 2.3 2.4 2.5 3.1 4.1 5.1 5.2 5.3 5.4 5.5 5.6 5.7 6.1 6.2 7.1 7.2 7.3 7.4 8.1 8.2 Reprezentarea grafului n plan . . . . . . . . . . . . . . . . . Site-ul web www.yahoo.com . . . . . . . . . . . . . . . . . . Pagini web ce formeaz a site-ul www.yahoo.com . . . . . . . Hyperlink-uri pe pagina de start a site-ului www.yahoo.com Tipuri de grafuri pe web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 3 4 8 10 11 12 13

Exemplu mers aleator pe un graf . . . . . . . . . . . . . . . . . 16 Exemplu mers aleator pe web . . . . . . . . . . . . . . . . . . . 18 Exemplu cautare pe web . . . . . . . . . . . . . Google despre PageRankTM . . . . . . . . . . . Mic univers de 4 pagini web . . . . . . . . . . Mic univers pentru calcul PageRankTM . . . . Calcul PageRankTM : reprezentare grac a . . . Google Toolbar . . . . . . . . . . . . . . . . . . Indicatorul PageRankTM : cele 11 reprezent ari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 25 26 30 31 32 32

Structura hyperlink de 6 pagini web . . . . . . . . . . . . . . . . 36 Conceptul PageRank . . . . . . . . . . . . . . . . . . . . . . . . 37 WebSPHINX logo . . . . . . . . . . . . . . . . . . . . WebSPHINX: setarea punctului de start . . . . . . . WebSPHINX: setarea limit arilor . . . . . . . . . . . . WebSPHINX: structura de graf a vizitelor efectuate . . . . . . . . . . . . . . . . . . . . . . . . 43 45 46 47

Site-urile web vizitate n timpul experimentului . . . . . . . . . 51 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 v

vi

DE FIGURI LISTA C.1 Contabilizarea URL-urilor c atre http://www.edu.ro . . . . . . . 73

Introducere
C aut arile pe web au devenit activitat i uzuale, prin care reg asim pe web ceea ce ne intereseaz a. Dezvoltarea motoarelor de c autare pe web a fost un proces natural, ele cresc and odat a cu web-ul. In perioada de nceput a web-ului si a Internet-ului n general, un motor de c autare era evaluat n primul r and dup a num arul de pagini pe care el le indexa. Bine-nt eles cu c at num arul de pagini era mai mare cu at at motorul era mai valoros. In zilele noastre lucrurile s-au schimbat, evolut ia web-ului a fost exploziv a astfel nc at simpla apreciere a num arului de pagini indexate nu mai este de ajuns. Prezenta lucrare va ncerca s a ia n considerare pentru evaluarea motoarelor de c autare pe web alt aspect, nu cel cantitativ, ci calitativ. Pentru asta voi folosi conceptul matematic de drum aleator ca pe o metod a ecient a ( n anumite condit ii) de aproximare a calit a tii motoarelor de c autare pe web. In capitolul 1 voi prezenta aspecte de ordin matematic (teoretice) din teoria statistic a referitoare la conceptul de mers aleator (random walk) precum si c ateva exemplic ari practice. Trec and spre tema mea de interes, n capitolul 2 voi c auta un instrument matematic de reprezentare a web-ului oprindu-m a asupra not iunii de structur a de graf. In capitolul urm ator, capitolul 3 voi face apropierea celor 2 concepte: mers aleator si structur a de graf prezent and mersulul aleator pe o structur a de graf. Incerc and s a fac trecerea spre experimentul practic, n capitolul 4 voi face trecerea de la mersul aleator pe web la procesele Markoviene si sirurile Markov. In capitolul 5 dizertat ia se ndreapt a spre motoarele de c autare pe web, vii

viii

Introducere

funct ionarea acestora, ce este indexul si cum se m asoar a (dintr-un anumit punct de vedere) si calitatea motoarelor de c autare pe web. In cadrul capitolului mi ndrept atent ia c atre motorul Google si asupra indicatorului s au TM de calitate PageRank . Aici prezint si un model de calcul al indicatorului precum si cum pot l pot aa pentru o anumit a pagin a web. Capitolul 6 prezint a matematica din spatele algoritmului PageRankTM (binen teles c a are de a face cu mersul aleator si sirurile Markov). In capitolul 7 prezint primul experiment si anume un mers aleator pe web. M a folosesc si adaptez aplicat ia Java Websphinx. Capitolul urm ator, prezint a cel de-al doilea experiment evaluarea motorului de c autare. Inchei prin prezentarea concluziilor nale n capitolul 9.

Capitolul 1 Mers aleator - considerente teoretice si practice


Aspectele de ordin teoretic privind not iunea de mers aleator sunt urm atoarele: sir de variabile aleatoare discrete si identic Denit ie 1.0.1. Fie {X k } k=1 un distribuite. Pentru orice n ntreg pozitiv not am S n = X 1 + X 2 + ... + X n . ste mers aleator. Sirul {S n } n=1 se nume Observat ie 1.0.2. Dac a {X k } Rm atunci spunem c a {S n } este un mers m aleator n R . L as and la o parte formalizarea matematic a, intuitiv mersul aleator reprezint a o formalizare a procesului de execut ie a unor pa si succesivi, ecare intr-o direct ie aleatoare (random). Cu alte cuvinte, un mers aleator este un proces stohastic. Denit ie 1.0.3. Un proces stohastic este o colect ie indexat a de variabile aleatoare, ecare din ele ind denite n acela si spat iu probabilistic W lu and valori n acela si codomeniu. Cel mai simplu mod de a vedea un mers aleator este dat de exemplul unui drum creat conform urm atorelor reguli: Exist a un punct de pornire (start). Distant a ntre un punct oarecare si urm atorul r am ane constant a. Direct ia de la un punct oarecare la urm atorul este aleas a la nt amplare si nici o direct ie nu are o probabilitate de alegere mai mare dec at alta. 1

Mers aleator - considerente teoretice si practice

Tradus n practic a o modalitate de a vedea un mers aleator este dat a de mi scarea unei particole.

1.1

Exemple mers aleator

Presupunem c a o particol a este plasat a n originea lui Rm la momentul n = 0. Atunci suma S n reprezint a pozit ia particolei la secunda n (sau dupa n secunde). Astfel, n intervalul de timp [n-1,n] particola a s arit din pozit ia S n1 n pozit ia S n . Vectorul ce reprezint a aceast a mi scare este S n1 S n = X n . Asta nseamn a c a n mers aleator mi sc arile sunt independent si identic distribuit.

Exemplu 1.1.1. Consider am = 1. Astfel, particola baleiaz a pe o linie pornind init ial, s a presupunem, din origine.

Figura 1.1: Cazul m = 1 - Mers aleator n R1

La ecare secund a (dac a secunda este unitatea de timp aleas a) particola sare e la st anga e la dreapta pe o linie, cu probabilitatea dat a de distribut ia lui X k.

Exemplu 1.1.2. Consider am m = 2. Ca vizualizare spat ial a ne putem imagina o intersect ie.

1.2 Propriet a tile mersului aleator

Figura 1.2: Cazul m = 2 - Mers aleator n R2 Subiectul nostru, s a zicem o persoan a de data asta, are 4 posibilit a ti de mi scare n functie de distribut ia lui X k . Exemplu 1.1.3. Consider am m = 3. Ca vizualizare spat ial a ne putem imagina o sal a de gimnastic a n care un gimnast e liber s a se mi ste n oricare din cele 6 direct ii posibile: st anga si dreapta, nainte si napoi, sus si jos. In continuare, pentru a pune n evident a c ateva din propriet a tile mersului aleator, acelea care ne intereseaz a pe noi, voi considera un exemplu clasic din statistic a si teoria probabilit a tilor.

1.2

Propriet a tile mersului aleator

Prin exemplicarea propriet a tilor mersului aleator voi considera jocul de-a aruncatul monedei. Cu alte cuvinte, suntem n R1 n care funct ia de distribut ie a variabilelor aleatoare X n este dat a de: f X (x) = 1/2 dac a x = 1, 0 altfel

Jocul implic a 2 persoane, si const a n aruncarea succesiv a a monedei si contabilizarea rezultatului (cap sau pajur a ). Suma S n reprezint a scorul, s a

Mers aleator - considerente teoretice si practice

zicem pentru prima persoan a dup a n arunc ari, cu presupunerea evident a c a scorul celei de-a doua persoane este S n . Intoc andu-m a la mersul aleator trebuie s a precizez c a cea mai sugestiv a reprezentare este printr-o linie poligonal a trasat a ntr-un grac unde reprezent am pe abscis a unitatea de timp iar pe ordonat a valorile lui S n . Cunosc and sirul {S n } de sume part iale mai nt ai marc am pe grac punctele (n, S n ), dup a care pentru ecare k < n conect am printr-o linie pe (k , S k ) cu (k + 1, S k+1 ). Lungimea drumului este dat a de diferent a n valori de timp de la nceputul p ana la terminarea durmului (ultimul punct). ca exemplicare grac a avem urm atoarea gur a:

Figura 1.3: Mers aleator de lungime 30 Denit ie 1.2.1. Spunem c a avem o egalitate sau ntoarcere la punctul de origine la momentul n dac a Sn = 0 Observat ie 1.2.2. Bine-nt eles ntoarcerea la origini se poate nt ampla dac a n este ntreg par. Pentru a calcula probabilitatea ca s a aib a loc o ntoarcere in origine la un moment de timp 2m (par) trebuie sa num ar am drumurile de lungime 2m care ncep si se termin a n origine. Num arul lor este: 2m m Deoarece ecare drum are probabilitatea 22m , avem urm atoarea teorem a:

1.2 Propriet a tile mersului aleator

Teorema 1.2.3. Probabilitatea unei ntoarceri n punctul de origine la momentul 2m este: 2m 2m u 2m = 2 m Observat ie 1.2.4. Probabilitatea de ntoarcere n origine este egal a cu 0 pentru momentele de timp impare.

Mers aleator - considerente teoretice si practice

[Aceast a pagin a a fost l asat a n mod intent ionat goal a.]

Capitolul 2 World Wide Web - reprezentare ca o structur a de graf


C and vorbim de grafuri asociem imediat cu not iunea de teorie a grafurilor concept folosit at at n matematic a c at si n informatic a.

2.1

Teoria grafurilor

Teoria grafurilor se ocup a cu studiul, bine-nt eles al grafurilor. In continuare voi prezenta c ateva din conceptele matematice ce stau la baza teoriei grafurilor.

Denit ie 2.1.1. Un graf G este perechea ordonat a (X, ) unde X este o mult ime nit a si nevid a de elemente numite v arfuri iar este o mult ime de perechi de elemente ale lui X numite muchii.

De obicei, reprezent am graful n plan ca o gur a format a din puncte (v arfurile) si segmente de dreapt a (muchiile). O muchie este deci o submult ime u, v X ale c arei elemente se numesc extremit a tile muchiei. De regul a pentru o astfel de muchie se folosesc notat iile (u,v) sau (v,u) av and aceea si semnicat ie si deci, nereprezent and muchii diferite. In conformitate cu aceste notat ii graful denit mai sus este graf neorientat. 7

World Wide Web - reprezentare ca o structur a de graf

Figura 2.1: Reprezentarea grafului n plan Dac a un v arf v X apart ine unei muchii e spunem c a v este incident cu e, iar dac a u, v e (extremit a tiile muchiei) spunem c au si v sunt adiacente. Dac a e1 , e2 sunt muchii distincte si au un v arf comun atunci spunem c a e1 si e2 sunt adiacente. Spunem c a un graf este complet dac a oricare dou a v arfuri ale sale sunt adiacente. Gradul unui v arf v X , notat deg(v) este num arul de muchii incidente lui v. Dac a deg(v)=0 atunci v arful este izolat, iar dac a deg(v)=1, atunci c arful este terminal. Denit ie 2.1.2. Fie G = (X, ) un graf si u, v X (u si v nu neap arat distincte). Se numeste lant n graful G succesiunea de muchii: (u,u1 ), (u1 ,u2 ), ... (u1 ,v), unde u1 , u2 , ... un X Mai spunem c a (u,u1 , ... ,un ,v) este un lant cu extremit a tile u si v. Observat ie 2.1.3. Un lant este elementar dac a, cu except ia eventual a a extremit a tilor, celelalte v arfuri difer a. Exemplu 2.1.4. (v1 , v3 , v4 , v5 ) - lant elementar;

2.2 Web-ul ca o structur a de graf

Observat ie 2.1.5. Un lant elementar pentru care extremit a tile u si v sunt egale (u = v) se nume ste ciclu. Exemplu 2.1.6. (v1 , v3 , v4 , v1 ) - ciclu; In continuare voi prezenta punctele comune dintre un graf si web.

2.2

Web-ul ca o structur a de graf

Voi ncepe prin a ncerca o denit ie a web-ului. a urm atoarea Astfel: Wikipedia The Free Encyclopedia (http://en.wikipedia.org/) d denit ie: Denit ie 2.2.1. World Wide Web (WWW sau simpluWeb) este un spat iu informat ional n care diverse subiecte de interes comun (referite ca resurse) sunt identicate unic prin identicatori globali numit i Identicatori de Resurse Uniforme (Uniform Resource Identiers - URI). Observat ie 2.2.2. De multe ori termenul de Web este asociat ca sinonim pentru Internet, dar de fapt Web-ul este un serviciu ce opereaz a n Internet. F ar a a p atrunde prea mult n detalii tehnice mai trebuie spus aici c a web-ul este format din 3 standarde: URL - Uniform Resource Locator : specic a modul n care ec arei pagini de informat ie i se aloc a o adres a unic a la care poate g asit a respectiva pagin a. HTTP - Hyper Text Transfer Protocol : specic a modul cum browserul si serverul comunic a unul cu cel alalt. HTML - Hyper Text Markup Language : specic a o metod a de codare a informat iei astfel nc at ea s a e disponibil a pe web. Pentru a-mi atinge scopul, formalizarea web-ului ca o structur a de graf trebuie s a introduc trei nout iuni: sit web (web site) pagin a web (web page) leg atura web (hyperlink)

10

World Wide Web - reprezentare ca o structur a de graf

Denit ie 2.2.3. Sit web (web site): locat ie (unic a) din World Wide Web. Fiecare web site cont ine o pagin a de start (home page) care este primul document pe care utilizatorul l vede la accesarea site-ului. De regul a site-urile web sunt administrate de indivizi, companii sau organizat ii.

Figura 2.2: Site-ul web www.yahoo.com A sa cum se observ a n imaginea de mai sus la accesarea URL -ului www.yahoo.com se deschide pagina de start a site-ului. Denit ie 2.2.4. Pagin a web (web page): Document scris n HTML care poate accesat prin Internet. Paginile web cont in de regul a, text, grac a si hyperlinkuri. Mai multe pagini web formeaz a un site. Cu alte cuvinte avem urm atoarea relat ie de incluziune:

Site web Pagin a web

2.2 Web-ul ca o structur a de graf

11

Figura 2.3: Pagini web ce formeaz a site-ul www.yahoo.com

Denit ie 2.2.5. Hyperlink: leg atur a de tip grac sau text care atunci se execut a click cu mouse-ul pe ea deschide o pagin a noua sau sare la alt a sect iune n cadrul paginii curente. Exemplu 2.2.6. Pentru exemplicare, pe pagina de start a site-ului web www.yahoo.com g asim un link de tip text si unul de tip grac ce ne duc la pagina Yahoo Mail (vezi gura 2.4). Relat iile de incluziune sunt:

Site web Pagin a web Hyperlink

12

World Wide Web - reprezentare ca o structur a de graf

Figura 2.4: Hyperlink-uri pe pagina de start a site-ului www.yahoo.com In acest moment pot descrie n mod natural web-ul ca un graf: W = (P, H) unde: P = pagini web; H = hyperlink-uri; Cu alte cuvinte, web-ul v azut ca o structur a de graf cont ine paginile web ca v arfuri si hyperlink-urile ca muchii.

2.3

Tipuri de grafuri pe web

Experimente (vezi [5]) au ar atat c a structura web-ului, modelat a prin grafuri este de 4 tipuri distincte. Ele sunt urm a toarele: Tip 1 - puternic conectat : oricera 2 noduri (pagini web) sunt conectate ntre ele; Tip 2 - conectat la dreapta : cont ine noduri (pagini web) la care exist a link-uri din [tip 1] dar nu exist a link-uri c atre [tip 1]; Tip 3 - conectat la st anga : cont ine noduri (pagini web) cu link-uri c atre [tip 1] dar nu exit a link-uri dinspre [tip 1]; Tip 4 - restul

2.3 Tipuri de grafuri pe web

13

Figura 2.5: Tipuri de grafuri pe web

14

World Wide Web - reprezentare ca o structur a de graf

[Aceast a pagin a a fost l asat a n mod intent ionat goal a.]

Capitolul 3 Mers aleator pe o structur a de graf


Pe scurt, cum de altfel si numele sugereaz a, mersul aleator pe o structur a de graf presupune vizitarea v arfurilor grafului merg and pe traseul format de muchii. Astfel: Fie G = (V, M) un graf (neorientat) unde: V = { v1 , v2 , ... ,vN } (mult imea v arfurilor); M = mult imea muchiilor; Mersul aleator pe o structur a de graf este un proces stohastic prin care n mod iterativ se viziteaz a v arfurile grafului. Urm atorul v arf este ales aleator din mult imea de v arfuri posibil de vizitat plec and din v arful curent. Atfel, mult imea v arfurilor vizitate poate scris a sub forma unui sir: x0 ,x1 ,x2 , ...

3.1

Exemplu mers aleator pe un graf

Pentru exemplicare vom folosi urm atorul exemplu: Fie urm atorul graf: 15

16

Mers aleator pe o structur a de graf

Figura 3.1: Exemplu mers aleator pe un graf Presupunem urm atorul scenariu de vizitare: START viziteaz a 1; alege aleator 2 sau 3; alege 2; viziteaz a 2; alege 4; viziteaz a 4; alege aleator 5 sau 6 sau 7; alege 6; viziteaz a 6; alege 9; viziteaz a 9; STOP

Capitolul 4 Realizarea unui mers aleator pe web: considerente teoretice


A sa cum am mai precizat, web-ul poate descris ca un graf ce este format din pagini web ca v arfuri si link-uri ca muchii.

G = (V, M)

unde: V = { v1 , v2 , ... ,vN } (mult imea v arfurilor); M = mult imea muchiilor; Astfel, atunci c and ne propunem s a realiz am un mers aleator pe web, n esent a execut am un mers aleator pe o structur a de graf. Ca vizualizare, s a presupunem exemplul urm ator: a care Parcurgem 3 pagini web pornind de la http://www.google.com, dup trecem prin http://www.microsoft.com si ajungem la http://www.msdn.com. 17

18

Realizarea unui mers aleator pe web: considerente teoretice

Figura 4.1: Exemplu mers aleator pe web Indrept andu-ne spre scopul nal - experimentul practic de mers aleator pe web, pot spune c a paginile web sunt st ari posibile ntr-un lant Markovian. Acest lucru nseamn a c a tranzit iile ntre st ari sunt independente de pa sii anteriori si depind doar de starea curent a.

4.1

Lant uri Markov

Denit ie 4.1.1. Un lant Markov este un proces stohastic n timp discret cu proprietatea Markov. In astfel de procese trecutul este irelevant pentru prezicerea viitorului. Cu alte cuvinte, un lant Marcov este o secvent a X1 ,X2 ,...,Xn de variabile aleatoare. Valorile posibile pentru aceste varabile se nume ste spat iul st arilor, valoarea Xn reprezent and starea procesului la momentul n. Dac a Xn+1 este

4.1 Lant uri Markov n funct ie de Xn atunci: P(Xn+1 = x | X0 ,X1 ,X2 ,...,Xn ) = P(Xn+1 = x | Xn )

19

Revenind la mersul aleator pe web, modul natural de mi scare este dat de link-urile de la o pagin a la alta. Exist and ns a pericolul c a la un moment dat o anumit a stare (pagin a) s a nu cont in a link-uri, atunci modul cel mai resc de a trece mai departe este un salt la o pagin a aleas a complet aleator. Datorit a imensit a tii web-ului nu putem identica un punct de oprire astfel nc at mersul aleator e unul ce poate continua la innit, ceea ce nu e realizabil practic.

20

Realizarea unui mers aleator pe web: considerente teoretice

[Aceast a pagin a a fost l asat a n mod intent ionat goal a.]

Capitolul 5 Criterii de evaluare ale motorului de c autare pe web


Inainte de toate, se impun c ateva preciz ari. In primul r and - ce este un motor de c autare pe web?

5.1

Motorul de c autare pe web

Denit ie 5.1.1. Motorul de c autare pe web este un sistem dedicat c aut arii si reg asirii informat iilor de pe web n scopul catalog arii rezultatelor. Elementul principal din component a este indexul. De regul a, un motor de c autare pe web are 3 componente: un robot - cu rolul de a g asi pagini web si a le trece n colect ia de pagini web ale motorului; un indexator - cu rolul de a construi indexul care este structura principal a a unui motor si reprezint a paginile adunate de robot; un modul de interogare - cu rolul de a oferi r aspunsurile la diverse interog ari folosind indexul; Exemple de motoare de c autare pe web: http://www.google.com http://www.yahoo.com http://www.msn.com 21

22

Criterii de evaluare ale motorului de c autare pe web http://www.altavista.com

Cu alte cuvinte, interact iunea noastr a ca utilizatori ai Internetului si a web-ului n special presupune interogarea unuia (sau mai multor) motoare de c autare pentru a reg asi pe web acele informat ii care ne intereseaz a.

5.2

Funct ionarea motorului de c autare

Motorul de c autare pe web funct ioneaz a prin stocarea informat iilor din paginile web pe care tot el le descoper a folosind propriu robot. Robotul traverseaz a web-ul adun and paginile prin indexarea acestora. Altfel spus, cont inutul ec ari pagini este analizat determin andu-se ce anume se indexeaz a. Aceste date sunt stocate n baze de date imense de indec si pentru a putea interogate ulterior n c aut ari si reg asiri. Exemplu de c autare pe web:

Figura 5.1: Exemplu cautare pe web Imaginea anterioar a prezint a un exemplu de c autare pe web folosind motorul

5.3 Indexul motorului de c autare pe web Google. Informat ia cerut a (interogarea) a fost random walk.

23

Din punct de vedere tehnic, n exemplul anterior ca utilizator al web-ului am folosit motorul de c autare pentru realizarea unei interog ari. Interogarea s-a f acut prin tastarea n caseta de c autare a cuvintelor cheie random walk. La r andul lui, motorul a c autat n baza de date de indec si furniz andu-mi o list a de pagini web ce satisfac criteriul de cea mai bun a potivire (best-matching) cu cuvintele mele cheie.

5.3

Indexul motorului de c autare pe web

A sa cum am precizat n sectiunea anterioar a indexul este componenta cea mai important a a unui motor de c autare pe web. El const a n baze de date ce cont in cuvinte cheie catalogate. Astfel, atunci c and interog am un motor de c autare pe web, de fapt facem o c autare de cuvinte chei n index si nu n web-ul propriu-zis. Acest lucru explic a faptul c a uneori o c autare folosind un motor ntoarce ca rezultat link-uri c atre pagini moarte (link-uri care nu duc nic aieri). Asta ne arat a c a de fapt, indexul nu a fost updatat de c and pagina respectiv a a devenit indisponibil a. Motorul de c autare trateaz a respectiva pagin a ca un link activ, chiar dac a pagina nu mai exist a. In esnt a evaluarea unui motor de c auatare pe web nseamn a, de fapt, evaluarea indexului acestuia.

5.4

M asurarea calit a tii indexului motorului de c autare pe web

La modul general, mi propun s a denesc calitatea indexului unui motor de c autare pe web. Pentru asta, s a presupunem c a ec arei pagini p din web i se atribuie o valoare w(p) numit a important a paginii respective: Pentru orice p w(p) = indicator de important a a paginii web; Not and cu S = motor de c autare pe web rezult a S = mult imea tuturor paginilor indexate rezult a
def

24

Criterii de evaluare ale motorului de c autare pe web w(S) = indicator de calitate al indexului lui S w(S ) =
pS def

w(p)

Observat ie 5.4.1. 0 w(S ) 1 Acestea ind spuse se poate observa c a indicatorul de calitate poate varia n funct ie bine-nt eles de m asura lui w. Exemplu 5.4.2. Dac a indicatorii de important a w sunt egali pentru toate paginile indexate de un motor d c autare atunci indicatorul de calitate al indexului va proport ional cu m arimea indexului. In orice caz, chiar dac a w variaz a n fuct ie de pagini conform denit iei date (formulei) n cele din urm a indicatorul de calitate depinde de m arimea indexului. Conform acestui rat ionament dac a consider am dou a motoare de c autare S1 si S2 si avem relat ia S1 S2 (paginile indexate de motorul S1 sunt o submult ime din mult imea paginilor indexate de motorul S2 ) atunci S2 va avea un indicator de calitate cel put in la fel de mare ca cel pentru S1 . Datorit a acestui aspect, este evident c a mai trebuie o metric a. O numim indicator mediu de calitate pe pagin a pentru un index si o not am cu: m(S ) =
w (S ) |S |

unde: S = num arul de pagini indexat de motorul de c autare pe web S; Acest indicator pune n dezavantaj motoarele de c autare mari pentru c a evident, cu c at num arul de pagini indexate este mai mare cu at at e mai dicil de obt inut un indicator mediu nalt.

5.5

PageRankTM de la Google

Pentru eexemplicare, n continuare, voi prezenta indicatorul de calitate folosit de motorul de c autare Google. Mai nt ai s a vedem ce spun cei de la Google pe site-ul lor: http://www.google.com/technology/:

5.5 PageRankTM de la Google

25

Figura 5.2: Google despre PageRankTM Inima software-ului nostru este PageRankTM un sistem de clasicare a paginilor web descoperit de Larry Page si Sergei Brin de la Universitatea Standford. Intre timp alt i ingineri lucreaz a mpreun a pentru a mbun at a ti zilnic Google. Conceptul de PageRank se bazeaz a pe natura unic a si democratic a a web-ului folosind imensa structur a a sa de link-uri ca indicator ce d a valoare ec arei pagini web. In esent a Google interpreteaz a un link de la pagina A la pagina B ca un vot dat de pagina A paginii B. a Google nu se opre Ins ste aici, el analizeaz a pagina care prime ste votul. Site-urile importante, de calitate primesc un indicator PageRankTM mare de care Google tine cont la ecare c autare pe care o execut a. Bine-nt eles, eticheta de pagin a inportant a nu nseamn a mare lucru pentru un utilizator dac a pagina servit a nu satisface criteriul s au de c autare. De aceea Google combin a TM PageRank cu tehnici complexe de text-matching pentru a oferi utilizatorilor paginile dorite de ace stia. Cam asta a fost de pe site-ul Google. In ceea ce prive ste algoritmul PageRank n continuare voi prezenta c ateva aspecte (binen-t eles multe detalii r am an cunoscute doar de cei de la Google).

26

Criterii de evaluare ale motorului de c autare pe web

5.6

Algoritmul PageRankTM

La modul simplicat, s a presupunem urm atoarele: Construim un mic univers format din 4 pagini web: A, B, C si D;

Figura 5.3: Mic univers de 4 pagini web Presupunem, conform gurii de mai sus, c a paginile B, C, D cont in ecare c ate TM un link c atre pagina A. In acest caz, indicatorul PageRank pentru pagina

5.6 Algoritmul PageRankTM A va suma indicatorilor PageRankTM pentru paginile B, C si D. PRank(A) = PRank(B) + PRank(C) + PRank(D);

27

Dar, s a presupunem n acela si timp si c a B cont ine un link c atre C precum si c a D link-uri c atre toate cele 3 pagini. Google consider a c a o pagin a nu poate vota de 2 sau mai multe ori, ceea ce conduce la interpretarea conform c areia pagina B a dat jum atate de vot paginii A si jum atate paginii C. Rat ionament identic se aplic a si pentru pagina D: ofer a 1/3 vot paginilor A, B si C. Rezum and: P Rank (A) =
P Rank(B ) 2

P Rank(C ) 1

P Rank(D) 3

unde: 2 = num arul de link-uri ale paginii B = l(B); 1 = num arul de link-uri ale paginii C = l(C); 3 = num arul de link-uri ale paginii D = l(D); Valoarea rezultat a se reduce cu un factor q. Observat ie 5.6.1. Nici o pagin a nu are un PageRankTM = 0. Minimum este 1-q. In nal,
(B ) + P Rank (A) = ( P Rank l (B ) P Rank(C ) l (C )

P Rank(D) )q l (D )

+1q

Concluzion and avem: PageRankTM -ul unei pagini web este calculat de PageRankTM paginilor care recomand a pagina; Google recalculeaz a mereu indicatorul PageRankTM ; Formula de calcul a indicatorului PageRankTM modeleaz a comportamentul unui surfer pe web care, dup a ce a navigat sistematic sare la o pagin a aleator aleas a. Cu alte cuvinte, valoarea PageRankTM -ului reect a frecvent a de vizitare a paginii. Intreg procesul, a sa cum de altfel am ar atat, este un proces Markovian n care paginile web se identic a cu st arile procesului iar tranzitiile sunt date de link-urile dintre pagini. Dac a n schimb, ajung la o pagin a (stare) care nu cont ine link-uri pot r am ane prizonier paginii respective. Solut ia: alegerea unui URL aleator si reluarea procesului. -ul

28

Criterii de evaluare ale motorului de c autare pe web Revenind la ecuat ie aceasta devine: P Rank (pi ) = unde: p1 , p2 , ... , pn = pagini web; M (pi ) = mult imea paginilor web care cont in link-uri c atre pagina pi ; L(pj ) = num arul de link-uri din pagina pj ; N = num ar total de pagini web; q = indicator de amortizare (dumping factor) - de regul a egal cu 0,85;
q N

+ (1 q )
pj M (pi )

P Rank(pj ) L(pj )

In continuare voi prezenta c ateva din site-urile web cu indice PageRankTM mare.

5.7
10/10

Site-uri web cu indice PageRankTM mare

Google (http://www.google.com) Microsoft (http://www.microsoft.com) Standford University (http://www.standford.edu) NASA (http://www.nasa.guv) Adobe (http://www.adobe.com) Apple (http://www.apple.com) Macromedia (http://www.macromedia.com) Intel (http://www.intel.com) 9/10 MSN (http://www.msn.com) MySQL (http://www.mysql.com) PHP (http://www.php.net) CNET (http://www.cnet.com)

5.8 Model calcul indice PageRankTM HP (http://www.hp.com)

29

Perl (http://www.perl.com)

BBC (http://www.bbc.co.uk)

SourceForge (http://www.sourceforge.net)

Bine-nt eles c a Google recalculeaz a dinamic indicele PageRankTM astfel nc at TM apar diverse modic ari n clasamentul PageRank .

5.8

Model calcul indice PageRankTM

In continuare voi prezenta pe un exemplu extrem de mult simplicat. Astfel, voi considera 4 pagini web cu structura de link-uri ntre ele a sa cum se prezint a n imaginea urm atoare.

30

Criterii de evaluare ale motorului de c autare pe web

Figura 5.4: Mic univers pentru calcul PageRankTM

Reamintesc formula:

P Rank (pi ) =

q N

+ (1 q )
pj M (pi )

P Rank(pj ) L(pj )

voi considera q = 0,85 si voi pleca de la un PRank = 1 (initial) pentru toate cele 4 pagini web. Reamintesc c a voi face iterativ calculul p an a c and se obt ine convergent a.

5.8 Model calcul indice PageRankTM Iterat ie 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 PRank(A) PRank(B) 1,000 1,000 1,000 0,575 2,084 0,575 1,163 1,036 1,554 0,644 1,554 0,810 1,413 0,810 1,533 0,750 1,482 0,801 1,482 0,780 1,500 0,780 1,485 0,788 1,491 0,781 1,491 0,784 1,489 0,784 1,491 0,783 1,490 0,784 1,490 0,783 1,490 0,783 1,490 0,783 1,490 0,783 PRank(C) PRank(D) 1,000 1,000 2,275 0,150 1,191 0,150 1,652 0,150 1,652 0,150 1,485 0,150 1,627 0,150 1,567 0,150 1,567 0,150 1,588 0,150 1,570 0,150 1,578 0,150 1,578 0,150 1,575 0,150 1,577 0,150 1,576 0,150 1,576 0,150 1,577 0,150 1,576 0,150 1,577 0,150 1,577 0,150

31

Grac situat ia se prezint a dup a cum urmeaz a:

Figura 5.5: Calcul PageRankTM : reprezentare grac a In continuare voi prezenta cum pot aa indicatorul PageRankTM pentru o pagin a web.

32

Criterii de evaluare ale motorului de c autare pe web

5.9

Aarea indicelui PageRankTM

Google ofer a un instrument destul de util pentru ca un utilizator de web s a ae informat ii despre indicatorul PageRankTM al unei pagini web (sau generaliz and - site web). Acest instrument e nume ste Google Toolbar.

Figura 5.6: Google Toolbar

Google Toolbar este de fapt un plug-in al browser-ului web Internet Explorer ce poate desc arcat de la adresa web http://toolbar.google.com/. pe l ang a funct ionalit a tile de c autare pe care acesta le ofer a bara arat a si indicatorul TM PageRank pe o scal a de la 0 la 10

Figura 5.7: Indicatorul PageRankTM : cele 11 reprezent ari Dac a tinem cont de faptul c a valoarea indicatorului PageRankTM teoretic poate avea un maxim de dN + (1-d) unde N = num arul total de pagini web, iar d = indicatorul de amortizare (dumping factor, de regula egal cu 0,85) atunci avem o valoare minim a de 0,15 si presupun and o scal a logaritmic a n baza 6 avem:

5.9 Aarea indicelui PageRankTM PageRankTM pe toolbar 0/10 1/10 2/10 3/10 4/10 5/10 6/10 7/10 8/10 9/10 10/10 PageRankTM real 0,15 - 0,9 0,9 - 5,4 5,4 - 32,4 32,4 - 194,4 194,4 - 1.166,4 1.166,4 - 6.998,4 6.998,4 - 41.990,4 641.990,4 - 251.942,4 251.942,4 - 1.511.654,4 1.511.654,4 - 9.069.926,4 9.069.926,4 - 0, 85 N + 0, 15

33

Nu este cunoscut cu sigurant a dac a scala este logaritmic a n sensul strict matematic. Este mai degrab a o scal a manual a care urmeaz a o schem a logaritmic a stiut a doar de cei de la Google.

34

Criterii de evaluare ale motorului de c autare pe web

[Aceast a pagin a a fost l asat a n mod intent ionat goal a.]

Capitolul 6 Matematica din spatele lui PagerankTM

A sa cum de altfel am mai precizat ecare pagin a (document) din web poate reprezentat a ca un nod (v arf) al unui graf imens. Arcele ce conecteaz a aceste v arfuri sunt hyperlink-urile dintre pagini.

Figura 6.1 prezint a o structur a hyperlink de 6 pagini web.

PageRankTM -ul folose ste aceast a structur a de hyperlink-uri pentru a asimila link-urile ce intr a ntr-o pagin a web cu o recomandare pe care autorul paginii ce recomand a o face paginii unde intr a link-ul.

Cu toate astea, link-urile ce vin de la pagini bune au important a mai mare dec at link-urile ce vin de la pagini mai marginale. Astfel, ec arei pagini web i se asigneaz a o m asur a a valorii ei. 35

36

Matematica din spatele lui PagerankTM

Figura 6.1: Structura hyperlink de 6 pagini web

6.1 Conceptul matematic PageRankTM

37

Figura 6.2: Conceptul PageRank Figura 6.2 prezint a conceptul din spatele lui PagerankTM conform c aruia linia ngro sat a semnic a un transfer mai mare de important a de la o pagin a bun a (important a) dec at de la o pagin a marginal a.

6.1

Conceptul matematic PageRankTM

In 1998 fondatorii motorului de c autare pe web Google, Larry Page si Sergey Brin au formulat conceptul de PageRank introduc andu-l de altfel n motorul de c autare inventat. Dup a ce paginile web sunt desc arcate de robotii web si TM sunt indexate si catalogate are loc asignarea de valorii PageRank . Inportant a lui PageRankTM este dat a de voturile (ce vin sub form a de linkuri) ntre paginile web. A sa cum precizam, unele voturi au greutate mai mare dec at altele. Matematic, acest lucru se exprim a astfel:

38

Matematica din spatele lui PagerankTM

r(P ) =
QBP

r(Q) |Q|

unde: BP = mult imea tuturor paginilor ce pointeaz a c atre P; |Q| = num arul de link-uri ce ies din Q; Aceast a denit ie este recursiv a, deci calculul ei se face prin iterat ii. Dac a avem n pagini P1 , P2 , ... ,Pn init ial asigur am o valoare arbitrar a ec arei pagini, s a presupunem r0 (Pi ) = 1/n atunci succesiv avem: rj (Pi ) =
QBPi

rj 1 (Q) |Q|

pentru j = 1, 2, 3, ... Acest lucru se realizeaz a prin formarea vectorului: T j = (rj (P1 ), rj (P2 ), ..., rj (Pn )) si calculul iterativ a:
T T j = j 1 P

unde: P = matrice cu: 1/|Pi | dac a Pi pointeaz a c atre Pj , 0 altfel

pij =

Notat ia |Pi | = num arul de link-uri ce ies din pagina Pi ; Dac a exist a limit a (converge) atunci vectorul PageRankTM este denit ca: T = lim T j
j

unde a i-a component a i este PageRankTM -ul paginii Pi ; In linii mari, cam aceasta este ideea, dar mai sunt de stabilit anumite condit ii de convergent a, sau cum se face ajustarea matricii P etc. De aceste aspecte m a voi ocupa n continuare.

6.2 PageRankTM & siruri Markov

39

6.2

PageRankTM & siruri Markov

Matricea P ar linii si coloane egale cu 1 sau cu 0. Linia egal a cu 0 corespunde paginilor care nu au link-uri de ie sire (a sa zisele noduri izolate). Pentru a simplica rat ionamentul voi considera c a nu avem noduri izolate adic a matricea P este stohastic a ceea ce nseamn a c a iterat iile pentru calculul TM lui PageRank reprezint a de fapt evolut ia unui sir Markov. Mai precis, sirul Markovian descrie un mers aleator pe o structur a de graf. Pentru exemplicare voi considera structura de hyperlink-uri din gura 6.1. Reprezentarea este o matrice p atratic a P ale c arei elemente pij reprezint a probabilit a tile de mutare din starea i (pagina i) la starea j (pagina j) ntr-un singur pas (un click). Voi presupune, pe exemplul dein gura 6.1. c a probabilit a tile de alegere a unui link din oricare nod sunt egale. Astfel: 0 0, 5 0, 5 0 0 0 0, 5 0 0, 5 0 0 0 0 0, 5 0 0, 5 0 0 P= 0 0 0 0 0 , 5 0 , 5 0 0 0, 5 0, 5 0 0 0 0 0 0 1 0 Binen-t eles si alte distribut ii probabilistice pot folosite. De exemplu, dac a un utilizator ce acceseaz a pagina 2 este tentat mai degrab a s a sar a la pagina T (linia a 2-a din P) se dene ste ca: 1 dec at la pagina 3 atunci P2
T P2 = (0, 6667 0 0, 3333 0 0 0)

In general vectorul de valori proprii principal pentru o astfel de matrice stohastic a este = 1. Cu alte cuvinte, dac a iterat ia:
T T j = j 1 P

converge la vectorul de valori proprii T care satisface: T = T P, T e = 1 (e = coloana de 1)

40

Matematica din spatele lui PagerankTM

[Aceast a pagin a a fost l asat a n mod intent ionat goal a.]

Capitolul 7 Realizarea unui mers aleator pe web: experiment


Realizarea practic a a unui mers aleator pe web a presupus folosirea si rescrierea ntr-o oarecare m asur a a unui program asem an ator cu aplicat iile profesionale numite robot i sau p aianjeni (spiders) web. Inainte de toate s a spun c ateva cuvinte despre robot ii web.

7.1

Robot ii web - prezentare general a

Robot ii web, recunoscut i si sub numele de p aianjeni web (spiders) reprezint a programe care traverseaz a n mod automat structura hypertext a web-ului, n scopul de a extrage informat ii, folosind protocoalele web standard. Observat ie 7.1.1. Trebuie f acut a o distinct ie clar a ntre robot ii web si navigatoarele web, care sunt aplicat ii act ionate de om sau ntre robot ii web si agent ii web care au si alte caracteristici precum inteligent a, mobilitate si autonomie. Activitatea unui robot const a n realizarea unei conexiuni HTTP (HyperText Transfer Protocol) la un server web cont in and un set de pagini, pornind de la un Identicator Uniform de Resurse (URI) pentru a extrage informat iile dintr-un document HTML si din toate documentele desemnate de leg aturile lui. Robot ii web au utiliz ari multiple, dup a cum urmeaz a: 41

42

Realizarea unui mers aleator pe web: experiment analiz a statistic a - prin traversarea unui ntreg site web, un robot poate furniza date privind media documentelor stocate pe un server, procentul de documente de un anumit tip, m arimea medie a unei pagini web etc. mentenant a - n prezent este foarte important a se ment ine n bune condit ii starea leg aturilor (link-urilor) dintr-o pagin a web. Un robot poate ajuta la descoperirea si rezolvarea a sa numitelor leg aturi moarte care pointeaz a c atre resurse inexistente. oglindire - tehnica oglindirii (mirroring) este preluat a de la arhivele FTP, reprezent and copierea la alt a locat ie a ntregii structuri, n mod recursiv si reactualizarea periodic a a sierelor. Pentru web, oglindirea poate realizat a de un robot care trebuie s a aib a grij a de rescrierea referint elor la alte documente, la p astrarea integrit a tii hypertext-ului si la actualizarea regulat a a paginilor web. descoperirea resurselor - probabil cea mai important a utilizare a robot ilor web este utilizarea lor la descoperirea resurselor. Cre sterea progresiv a a volumului de informat ii a dus la necesitatea conceperii de aplicat ii pentru sumarizarea, indexarea si supraveghrea modic arii informat iilor de pe web. Astefel, ecare motor de c autare pe web, cont in and baze de date privind localizarea si tipul de informat ii dorite de utilizatori apeleaz a la serviciul robot ilor pentru descoperirea resurselor internet. utiliz ari combinate - robot ii web pot ndeplini sarcini multiple, ca de exemplu descoperirea resurselor si realizarea de statistici web sau ment inerea integrit a tii leg aturilor si concomitent, detectarea schimb arilor n paginile web.

In continuare voi realiza un experiment practic, prin care voi efectua operat i specice robotilor web.

7.2

Program Java pentru mers aleator pe web

Revenind, realizarea unui mers aleator pe web presupune alegerea a uneia din cele 2 solut ii: folosirea unui robot web (spider) existent, e el comercial sau gratuit;

7.3 Despre WebSPHINX

43

scrierea (sau adaptarea unei solut ii existente) a propriului robot web; Am ales varianta ia a 2-a, mai exact am ales ca solut ie WebSPHINX (Siteoriented Processor for HTML INformation eXtraction) un robot web dezvoltat de Universitatea Carnegie Mellon din Pittsburg.

7.3

Despre WebSPHINX

Proiectul, dezvoltat in Java, se constituie din c ateva libr arii Java utile n scrierea si dezvoltarea robot ilor web (binen-t eles, solutii relativ limitate f ar aa atinge performant ele robot ilor web utilizat i de motoarele de c autare).

Figura 7.1: WebSPHINX logo Programul are 2 componente: interfata robotului; libr aria de clase WebSPHINX Prima component a (interfat a) permite congurarea, bine-nt eles prin cod Java, si controlul robotului propriu-zis. Cea de-a doua component a furnizeaz a cod pentru dezvoltarea (scrierea) si a altor robot i similari.

44

Realizarea unui mers aleator pe web: experiment

Observat ie 7.3.1. Prezentei lucr ari am ata sat si codul aferent aplicat ie WebSPHINX a sa cum a fost el modicat de mine pe alocuri f ar a ns a a nc alca termenii de licent a. De altfel, condit iile de licent iere tip Apache-style license sunt prezentate n anexa 1.

In continuare urmeaz a experimentul.

7.4

Experiment - mers aleator pe web

Folosind programul WebSPHINX am congurat ca acesta s a efectueze o plim bare aleatoare pe web. In pseudocod programul lucreaz a cam a sa:

viziteaza(p) { L[v] := toate link-urile din pagina P SELECT q RANDOM (unde q este din L[p]) viziteaza(q) }

In practic a, de fapt, dup a ce robotul viziteaz a o anumit a pagin a se ntoarce si viziteaz a si paginile din coada de a stepare (L[v]). Primul lucru pe care l-am f acut a fost s a setez programul. Am ales ca punct de pornire pagin a de start a site-ului web a Facultat ii de Matematic a si Informatic a a Universit a tii Ovidius (http://www.univ-ovidius.ro/math/index.php).

7.4 Experiment - mers aleator pe web

45

Figura 7.2: WebSPHINX: setarea punctului de start

46

Realizarea unui mers aleator pe web: experiment

Figura 7.3: WebSPHINX: setarea limit arilor Dup a cum se observ a n gura de mai sus am aplicat set ari programului: Fire de execut ie = 4 (am limitat num arul de mersuri aleatoare n acela si timp la 4); M arimea paginii = 100 Kb (pentru a s ari peste pagnile mari ce ar duce la timpi mari de procesare); Timeout pagin a = 60 sec. (timp maxim de a steptare pentru primirea unui raspuns din partea paginii web); Timeout navigare = -1 sec. (fara timeout); Respect a excluziunea tip robot (vezi detalii n continuare) Excluziunea tip robot este instrumentul prin care un administrator de site web specic a anumite sectiuni ale site-ului pe care nu dore ste s a e parcurse si indexate de robot ii web. Denumirea ocial a este protocolul de exluziune robot i si const a n plasarea la rad acina site-ului web a sierului robots.txt.

7.4 Experiment - mers aleator pe web

47

La ap asare butonului Start rezult a robotul ncepe s a viziteze link-urile nt alnite.

Figura 7.4: WebSPHINX: structura de graf a vizitelor efectuate Dup a cum se observ a a sa cum precizam n capitolul 2 n care armam c a webul poate interpretat ca o structur a de graf av and paginile drept v arfuri si link-urile drept muchii am obt inut un graf.

48

Realizarea unui mers aleator pe web: experiment

[Aceast a pagin a a fost l asat a n mod intent ionat goal a.]

Capitolul 8 Evaluarea motorului de cautare pe web: experiment


In continuare, plec and de la rezultatele obt inute deja si anume: web-ul poate v azut ca o structur a de graf; indicele PageRankTM este un indice de evaluare a calit a tii pentru o pagin a web; mi propun s a evaluez motorul de c autare Google printr-un experiment. Voi efectua un mers aleator pe web (cu unele limit ari). Acestea se refer a la faptul c a voi direct iona robotul pentru a parcurge site-uri (si pagini web) din domeniul academic rom anesc. M a refer aici la site-uri educat ionale, ale universit a tilor si a altor institut ii cu prol educat ional. Am ales ca punct de plecare site-ul web al Ministerului Educat ie si Cercet arii (http://www.edu.ro). Robotul extrage toate URLurile externe (ignor a pe cele interne). In nal prin contabilizarea num arului de aparit ii (referent ieri) a unui URL au important a TM sit-ului, pe care o compar cu indicatorul PageRank furnizat de Google.

8.1

Site-urile web prinse n experiment

In continuare voi prezenta tabelar sit-urile web vizitate de robot n timpul experimentului. 49

50

Evaluarea motorului de cautare pe web: experiment

Nr. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26.

Nume institut ie (site) Ministerul Educat ie si Cercet arii Portal Sistemul Educ. Informatizat Universitatea Ovidius Constant a Agent ia Nat . pt. Programe Comunitare n Domeniul Educat ie si Form. Profes. Portalul profesorului modern Premiul nat ional de e-content Portal educat ional zic a Gaudeamus - carte de nv a t atur a Carte educat ional a - Aula The Romanian Education Network Universitatea 1 Decembrie Alba Iulia Situl Web al Facult a tii de Imbun. Func. si Ing. Mediului din Bucure sti Universitatea Babe s- Bolyai Cluj-Napoca Universitatea Tehnic a Timi soara Universitatea Tehnic a Gh. Asachi Ia si Programul Leonardo Universitatea din Craiova Universitatea Tehnic a Bra sov MEC Cercetare Institutul Cultural Rom an Institutul pentru tehnic a de Calcul Universitatea Bucure sti Bibl. Central a Univ. Buc. Univ. Stefan cel Mare Suceava Univ. Teh. de Constr. Buc. Universitati

Adresa web (URL) http://www.edu.ro http://portal.edu.ro http://www.univ-ovidius.ro http://www.socrates.ro http://www.didactic.ro http://www.e-content.ro http://www.ezica.ro http://www.gaudeamus.ro http://www.aula.ro http://www.roedu.net http://www.uab.ro http://www.ecoland.ro http://www.ubbcluj.ro http://www.utt.ro http://www.tuiasi.ro http://www.leonardo.ro http://www.central.ucv.ro http://www.unitbv.ro http://www.mct.ro http://www.icr.ro http://www.itc.ro http://www.unibuc.ro http://www.bcub.ro http://www.usv.ro http://www.utcb.ro http://www.universitati.ro

8.2 Statistici experiment

51

Figura 8.1: Site-urile web vizitate n timpul experimentului Figura 8.1 prezint a graful site-urilor web vizitate n timpul experimentului. S ageata (muchia orientat a) nseamn a c a am avut o ordine de vizitare si c a sit-ul c atre care pointeaz a s ageata a fost pe lista de URL-uri a site-ului de la care pleac a s ageata. In anexa B ar at lista de URL-uri obt inut a n urma vizit arii paginilor site-ului http://www.edu.ro. Ment ionez c a pe cd-ul ce nsot e ste prezenta lucrare sunt n siere .txt rezultatele vizitelor prin toate site-urile cuprinse n experiment.

8.2

Statistici experiment

Mersul aleator a condus la obt inerea urm atoarelor statistici:

52 Nr. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26.

Evaluarea motorului de cautare pe web: experiment Adresa web (URL) http://www.edu.ro http://portal.edu.ro http://www.univ-ovidius.ro http://www.socrates.ro http://www.didactic.ro http://www.e-content.ro http://www.ezica.ro http://www.gaudeamus.ro http://www.aula.ro http://www.roedu.net http://www.uab.ro http://www.ecoland.ro http://www.ubbcluj.ro http://www.utt.ro http://www.tuiasi.ro http://www.leonardo.ro http://www.central.ucv.ro http://www.unitbv.ro http://www.mct.ro http://www.icr.ro http://www.itc.ro http://www.unibuc.ro http://www.bcub.ro http://www.usv.ro http://www.utcb.ro http://www.universitati.ro Pag. web viz. URL-uri g asite 5001 541 7 20 764 30 2003 457 1500 15 9 8 175 53 335 197 181 3 40 114 13 0 1131 2224 33 0 830 529 206 94 130 33 3244 270 2159 160 613 541 513 13 214 81 669 10 520 923 56 48 107 34 70 61

Sumariz and avem: Site-uri web vizitate = 26; Pagini vizitate = 20.523; URL-uri g asite = 6.549; In continuare voi demonstra c a ntr-adev ar mersul aleator captureaz a not iunea de calitate, n particular voi urm ari distibut ia empiric a (observat a) a unui e santion (serii statistice) format din URL-urile g asite n urma mersului aleator pe web. Trebuie precizat din start c a acest concept de calitate este unul relativ intiutiv (f ar a o denit ie strict a) iar evident a este oarecum circumstant ial a.

8.2 Statistici experiment

53

In experimentul meu (de tip statistic), consider and c a URL-ul unui site web este valoarea observat a voi construi tabelul de distribut ie a frecvent elor absolute pentru valoarea oservat a xi = URL.

tabel m a voi limita la a nscrie doar acele URL -uri cu Observat ie 8.2.1. In frecvent e absolute mari.

Nr. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23.

Adresa web (URL) Frecv. absolut a http://www.microsoft.com 88 http://www.yahoo.com 69 http://java.sun.com 37 http://www.edu.ro 35 http://www.adobe.com 26 http://www.leonardo.ro 24 http://www.univ-ovidius.ro 23 http://www.socrates.ro 19 http://www.real.com 18 http://www.umfcv.ro 17 http://www.usv.ro 17 http://www.central.ucv.ro 11 http://www.infoeuropa.ro 11 http://www.aurelvlaicu.ro 10 http://www.javasoft.com 10 http://www.utcluj.ro 10 9 http://www.winzip.com http://www.valahia.ro 9 http://www.uttgm.ro 9 9 http://www.unitbv.ro http://www.unibuc.ro 9 9 http://www.ubbcluj.ro http://www.uaic.ro 9

54

Evaluarea motorului de cautare pe web: experiment

Figura 8.2: Histograma

A stept arile noastre n privnt a experimentului se bazau pe teoria c a n mersul nostru aleator vor nt alnite acele URL-uri referite de regul a cel mai frecvent. Lucru care s-a si nt amplat de altfel.

Aruc and o privire asupra PageRankTM -urilor a sate de Google supozit ia noastr a se conrm a.

8.2 Statistici experiment Nr. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. Adresa web (URL) PageRankTM http://www.microsoft.com 9/10 http://www.yahoo.com 10/10 http://java.sun.com 9/10 http://www.edu.ro 6/10 http://www.adobe.com 10/10 5/10 http://www.leonardo.ro http://www.univ-ovidius.ro 5/10 http://www.socrates.ro 6/10 http://www.real.com http://www.umfcv.ro http://www.usv.ro 5/10 http://www.central.ucv.ro 5/10 http://www.infoeuropa.ro 6/10 http://www.aurelvlaicu.ro 3/10 http://www.javasoft.com http://www.utcluj.ro 6/10 http://www.winzip.com 9/10 http://www.valahia.ro 5/10 http://www.uttgm.ro 6/10 http://www.unitbv.ro 6/10 http://www.unibuc.ro 7/10 http://www.ubbcluj.ro 7/10 http://www.uaic.ro 5/10

55

Concluzion and pot spune urm a toarele: mersul aleator efectuat pe web mi-a oferit la modul intuitiv o m asur aa calit a tii paginilor (site-urilor) web; indicatorul PageRankTM construit la r andul lui pe premisele unui mers aleator pe web ofer a un criteriu de calitate ce st a la baza motorului de c autare Google.

56

Evaluarea motorului de cautare pe web: experiment

[Aceast a pagin a a fost l asat a n mod intent ionat goal a.]

Capitolul 9 Concluzii nale


Prezenta lucrare a ncercat s a prezinte o metod a de evaluare a motoarelor de c autare pe web. Cu alte cuvinte, am ncercat s a denesc not iunea de calitate a unui motor de c autare pe web suger and faptul c a indicatorul PageRankTM furnizeaz a o astfel de m asur a. A sa cum am prezentat pe parcursul lucr arii not iunile ce formeaz a fundaTM mentarea indicatorului PageRank se refer a la: web-ul v azut ca o structur a de graf; not iunea de mers aleator; realizarea unui mers aleator pe o structur a de graf; Cele 2 experimente au ar atat pe de-o parte cum se realizeaz a un mers aleator pe web si pe de alt a parte faptul c a mersul aleator pe web furnizeaz a, n anumite condit ii si cu oarecare limit ari, rezultate promit atoare n categorizarea dup a important a a paginilor web. Aceast a clasicare conduce binen-t eles la ncadrarea ecient ei unui motor de c autare pe web. Subiectul prezentei lucr ari suporta si alte tipuri de abord ari si m a refer aici la faptul c a disertat ia mea s-a axat doar pe aspectul de important a a unei pagini web n funct ie de referint ele (prin link-uri) pe care acesta le prime ste de la alte pagini. Nu a f acut subiectul prezentei lucr ari abordarea de tip cont inut pagin a web, adic a clasicarea paginilor n funct ie de cont inut.

57

58

Concluzii nale

Domeniu motoarelor de c autare evolueaz a rapid, competit ia dintre acestea fort andu-i mereu spre g asirea solut iilor adecvate menite s a satisfac a nevoile TM utilizatorilor. Spre exemplicare algoritmul PageRank prezentat n aceast a lucrare, de fapt versiunea simplicat a cunoscut a a acestuia, va conform ultimilor zvonuri ce circul a pe internet, nlocuit cu a sa numitul TrustRank.

Anexa A WebSPHINX: termenii legali de licent a


/* * * * * * * * * * * * * * * * * * * * * * * * *

WebSphinx web-crawling toolkit Copyright (c) 1998-2002 Carnegie Mellon University. reserved. All rights

Redistribution and use in source and binary forms, with or without modification, are permitted provided that the following conditions are met: 1. Redistributions of source code must retain the above copyright notice, this list of conditions and the following disclaimer. 2. Redistributions in binary form must reproduce the above copyright notice, this list of conditions and the following disclaimer in the documentation and/or other materials provided with the distribution. THIS SOFTWARE IS PROVIDED BY CARNEGIE MELLON UNIVERSITY AS IS AND ANY EXPRESSED OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL CARNEGIE MELLON UNIVERSITY NOR ITS EMPLOYEES BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, 59

60

WebSPHINX: termenii legali de licent a

* DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY * THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE. * */

Anexa B Lista URL-urilor extrase la vizitarea http://www.edu.ro


http://www.guv.ro http://www.mct.ro http://news.edu.ro http://www.burseguvern.ro http://www.burse.edu.ro http://portal.edu.ro http://admitere.edu.ro http://bacalaureat.edu.ro http://subiecte.edu.ro http://titularizare.edu.ro http://euro200.edu.ro http://www.recunoastere.edu.ro http://rural.edu.ro http://forum.edu.ro http://www.adobe.com/prodindex/acrobat/readstep2.html http://www.snac-ro.org http://www.adobe.com/prodindex/acrobat/readstep.html http://www.cci.ubbcluj.ro/prospective-students/summer-schools.htm http://www.unibuc.ro/en/anunturi_main_en2?wid=29285&func=viewSubmission&sid=71 http://cis01.central.ucv.ro/litere/cursuri_vara/Brancusi.en.htm http://www.univ-ovidius.ro/letters/scc/ http://mail.lit.uaic.ro/cursuridevara/ http://www.litere.uvt.ro/summer_courses.htm http://www.cncsis.ro http://www.socrates.ro/ http://www.leonardo.ro/ http://www.olimpiade.ro http://www.didactic.ro http://www.holcimawards.com/ http://www.cristiantopescu.ro/ http://cnc.ise.ro

61

62

Lista URL-urilor extrase la vizitarea http://www.edu.ro

http://rural.edu.ro/ http://www.tvet.ro http://www.ise.ro/ http://www.cncsis.ro/ http://www.cnfis.ro/ http://aira.astro.ro/scienceonstage http://www.apart.ro http://www.coe.ro/ http://www.cepes.ro http://ag.stud.edu.ro http://www.cedu.ro http://www.credis.ro http://www.unicef.org http://www.intercultural.ro http://www.romacenter.osf.ro http://www.savethechildren.net/romania http://www.impreuna.go.ro http://www.ismb.ro http://www.infomatrix.ro http://cia.buzau.ro http://isj.bc.edu.ro http://www.dol.ro http://www.infoeducatie.ro http://www.isjbn.ro http://www.infoiasi.ro/boi2003 http://liceu.oni.pcnet.ro/ http://gimnaziu.oni.pcnet.ro http://www.eduitbr.ro/ http://www.e-vrancea.com/oji/ http://www2.portal.edu.ro/adlic/jive2 http://www.excelenta.ro http://www.liis.ro/~cex_is http://www.elia.ro/CRTCPGALATI/ http://www.ccs.ro http://www.unitbv.ro/ccsbv/default.htm http://www.bcub.ro http://www.bcu.ubbcluj.ro http://www.bcu-iasi.ro http://www.portal.edu.ro/ http://subiecte.edu.ro/ http://www.sensiblu.com/burse http://www.profesorulanului.ro http://www.ugal.ro http://www.uaic.ro http://www.portal.edu.ro http://www.ecml.at/helpcd/splash.htm http://www.ceepus.org/ceepus http://www.pub.ro/ http://www.utcb.ro/

63
http://www.iaim.ro/ http://www.usab.ro/ http://www.unibuc.ro/ http://www.univermed-cdgm.ro/ http://www.ase.ro/ http://www.unatc.ro http://www.anefs-edu.ro http://www.snspa.ro/ http://www.uab.ro/ http://www.uav.ro/ http://www.ub.ro/ http://www.ubm.ro/ http://www.unitbv.ro/ http://www.utcluj.ro/ http://www.usamvcluj.ro http://www.ubbcluj.ro/ http://www.umfcluj.ro http://www.amgd.ro/ http://www.vizual.utcluj.ro http://www.univ-ovidius.ro/ http://www.imc.ro/ http://www.central.ucv.ro/ http://www.umfcv.ro/ http://www.ugal.ro/ http://www.tuiasi.ro/ http://www.univagro-iasi.ro/ http://www.uaic.ro/ http://www.umfiasi.ro http://www.arteiasi.ro/ http://www.uoradea.ro http://www.upet.ro/ http://www.upit.ro/ http://www.upg-ploiesti.ro/ http://www.uem.utt.ro/ http://www.ulbsibiu.ro/ http://www.usv.ro/ http://www.valahia.ro/ http://www.utgjiu.ro/ http://www.uttgm.ro/ http://www.umftgm.ro http://www.uat.ro http://www.utt.ro/ http://www.usab-tm.ro http://www.uvt.ro/ http://www.umft.ro/ http://www.mta.ro/ http://www.afahc.ro http://www.anmb.ro/ http://www.actrus.ro/

64

Lista URL-urilor extrase la vizitarea http://www.edu.ro

http://acpol.mediasat.ro http://www.leonardo.ro http://www.uhaifa.org http://www.univie.ac.at/sommerhochschule http://www.uni-kiel.de/sport http://www.uni-kiel.de/aaa/9/intferi.htm http://www.bwl.uni-kiel.de/KISS http://www.cncsis.ro/td/tineri_doctoranzi.html http://www.gaudeamus.ro http://www.onassis.gr http://scgenerala.s5.com http://www.scgenerala.s5.com/proiect/artgallery.html http://www.eun.org http://www.gymck.cz http://scoala39.tripod.com/ http://www.scoala5calarasi.ro http://www.scoalaplevna.ro http://www.1-centrupilot-calarasi.go.ro http://www.proeducatia.go.ro http://www.aurelvlaicu.ro http://myeurope.eun.org http://tehnoprest.com/scoala5 http://efnord.eforie.ro http://www.freewebs.com/scoala2tm/ http://igduca.home.ro http://sc5roman.edunet.ro http://www.eco-scoala-gura-humorului.go.ro http://www.revista-amicii.ro http://www.fdr.ro/ro/program1.php3?id=5 http://www.fdr.ro http://www.dnttm.ro/~cncb http://www.cnlazar.ro http://www.socrates.ro http://www.editurasfmina.ro/semdor http://www.lme.ro http://www.infoiasi.ro/~iasimin/ia/ http://www.liis.ro http://economic.buzau.ro http://coanda.bc.edu.ro http://cnmv.ploiesti.roedu.net/ http://liceul_g_calinescu.tripod.com http://national.is.edu.ro http://www.gscfr.pascani.ro http://www.reginamaria.pchouse.ro http://www.titulescu.multinet.ro http://www.victorgomoiu.go.ro/ http://www.hcoanda.ro/ http://www.users.rol.ro/lshtecuci http://lgi.is.edu.ro

65
http://www.semmnt.ro http://www.costescu.severin.rdsnet.ro/economic http://www.cnt.ro http://www.cntv.ro http://www.al.odobescu.go.ro http://www.silvic-nasaud.go.ro http://www.decebalmh.ro http://titeica.ts.terrasat.ro http://www.licteologicblaj.cnet.ro http://www.matei-basarab.rdscv.ro http://www.lefo.ro http://www.lefo.ro/coastalcities/Site_Quimper_Eng_ver/index.htm http://nuke.lefo.ro http://www.liceulagricol-horia.home.ro http://www.nbasarab.ro http://www.artelecom.net/arteplasticecj http://www.gselp.home.ro http://cnrn.t35.com http://www.cjnicolau.as.ro http://www.cncsis.ro/granturi http://europa.eu.int/comm/education/erasmus/million_en.html http://www.umfcv.ro http://www.valahia.ro http://www.winzip.com/ddchome.htm http://www.ro.auf-francophonie.org http://admitere.edu.ro/2004/ http://www.thinkquest.org http://www.thinkquest.org/tqic/tqic_rules.html http://library.thinkquest.org/C001468F/ http://www.thinkquest.multinet.ro http://www.thinkquest.multinet.ro/parteneriate.htm http://www.abid.net/Train http://www.qsystems.es/gipsy http://www.geocities.com/paris/5121/patrin.htm http://www.romani.org/toronto http://www.romani.org/wcra http://www.lpb.bwue.de/gedenk/gedenk14.htm http://www.dag.it/franzese/CSZ.htm http://www.osi.hu/roma http://www.aloha.net/-bohem/rishroma.html. http://olympiads.win.tue.nl/ibo/index.html http://olympiads.win.tue.nl/ipho/index.html http://olympiads.win.tue.nl/ioi/index.html http://olympiads.win.tue.nl/imo/index.html http://olympiads.win.tue.nl/icho/index.html http://olympiads.win.tue.nl/iao/index.html http://www.winzip.com/upgradex.htm http://www.graiul.ro http://www.informatia-zilei.ro/BM/

66

Lista URL-urilor extrase la vizitarea http://www.edu.ro

http://www.glasulmaramuresului.ro/ http://www.radioiasi.ro/ http://www.jurnalul.ro/ http://www.adevarulonline.ro/ http://www.romanialibera.ro http://www.independent-al.ro/ http://www.evenimentulzilei.ro/ http://www.sindromania.ro/ http://cnmb.rdsct.ro/alumni http://www.presidency.ro http://domino.kappa.ro/guvern/home.nsf http://domino.kappa.ro/guvern/home.nsf/All/Parlament http://www.racai.ro/ra/ra.html http://www.britcoun.org/romania/index.htm http://www.instfrbuc.ro/ http://www.canad.ro/itcultro/ http://tempus.kappa.ro/ http://Biblioteca.euroweb.ro http://www.csc.matco.ro/ http://www.europa.eu.int/en/comm/dg22/dg22.html http://www.eurydice.org http://www.bmbf.de http://www.bmwf.gv.at/ http://www.ed.gov http://goldmine.cde.ca.gov http://www.open.gov.uk/dfee/dfeehome.htm http://www.minedu.fi/index.html http://www.education.gov.il/english/ http://www.moe.ac.sg/ http://www.monbu.go.jp/emindex.html http://www.ecml.at/ http://www.coe.int/ http://www.ecml.at/interactive/Threads.asp?f=40 http://cnc.ise.ro/ http://www.ise.ro http://www.cnfis.ro http://www.ecml.at/ http://www.coe.int/ http://www.ecml.at/interactive/Threads.asp?f=40 http://www.guv.ro http://www.mct.ro http://news.edu.ro http://www.burseguvern.ro http://www.burse.edu.ro http://portal.edu.ro http://admitere.edu.ro http://bacalaureat.edu.ro http://subiecte.edu.ro http://titularizare.edu.ro

67
http://euro200.edu.ro http://www.recunoastere.edu.ro http://rural.edu.ro http://forum.edu.ro http://www.adobe.com/prodindex/acrobat/readstep.html http://www.cci.ubbcluj.ro/prospective-students/summer-schools.htm http://www.unibuc.ro/en/anunturi_main_en2?wid=29285&func=viewSubmission&sid=71 http://cis01.central.ucv.ro/litere/cursuri_vara/Brancusi.en.htm http://www.univ-ovidius.ro/letters/scc/ http://mail.lit.uaic.ro/cursuridevara/ http://www.litere.uvt.ro/summer_courses.htm http://cnc.ise.ro http://rural.edu.ro/ http://www.tvet.ro http://www.ise.ro/ http://www.cncsis.ro/ http://www.cnfis.ro/ http://www.socrates.ro/ http://www.leonardo.ro/ http://www.adobe.com/prodindex/acrobat/readstep2.html http://www.olimpiade.ro http://www.didactic.ro http://www.holcimawards.com/ http://www.cristiantopescu.ro/ http://www.cncsis.ro http://www.ismb.ro http://www.cedu.ro http://www.credis.ro http://www.unicef.org http://www.intercultural.ro http://www.romacenter.osf.ro http://www.savethechildren.net/romania http://www.impreuna.go.ro http://www.infomatrix.ro http://cia.buzau.ro http://isj.bc.edu.ro http://www.dol.ro http://www.infoeducatie.ro http://www.isjbn.ro http://www.infoiasi.ro/boi2003 http://liceu.oni.pcnet.ro/ http://gimnaziu.oni.pcnet.ro http://www.eduitbr.ro/ http://www.e-vrancea.com/oji/ http://www2.portal.edu.ro/adlic/jive2 http://www.ugal.ro http://www.uaic.ro http://www.racai.ro/ra/ra.html http://www.britcoun.org/romania/index.htm

68

Lista URL-urilor extrase la vizitarea http://www.edu.ro

http://www.instfrbuc.ro/ http://www.canad.ro/itcultro/ http://tempus.kappa.ro/ http://www.leonardo.ro http://www.socrates.ro http://Biblioteca.euroweb.ro http://www.csc.matco.ro/ http://www.europa.eu.int/en/comm/dg22/dg22.html http://www.eurydice.org http://www.bmbf.de http://www.bmwf.gv.at/ http://www.ed.gov http://goldmine.cde.ca.gov http://www.open.gov.uk/dfee/dfeehome.htm http://www.minedu.fi/index.html http://www.education.gov.il/english/ http://www.moe.ac.sg/ http://www.monbu.go.jp/emindex.html http://www.presidency.ro http://domino.kappa.ro/guvern/home.nsf http://domino.kappa.ro/guvern/home.nsf/All/Parlament http://www.profesorulanului.ro http://www.snac-ro.org http://www.cncsis.ro/td/tineri_doctoranzi.html http://europa.eu.int/comm/education/erasmus/million_en.html http://www.umfcv.ro http://www.valahia.ro http://www.cncsis.ro/granturi http://www.winzip.com/ddchome.htm http://scgenerala.s5.com http://www.scgenerala.s5.com/proiect/artgallery.html http://www.eun.org http://www.gymck.cz http://scoala39.tripod.com/ http://www.scoala5calarasi.ro http://www.scoalaplevna.ro http://www.1-centrupilot-calarasi.go.ro http://www.proeducatia.go.ro http://www.aurelvlaicu.ro http://myeurope.eun.org http://tehnoprest.com/scoala5 http://efnord.eforie.ro http://www.freewebs.com/scoala2tm/ http://igduca.home.ro http://sc5roman.edunet.ro http://www.eco-scoala-gura-humorului.go.ro http://www.revista-amicii.ro http://www.winzip.com/upgradex.htm http://www.graiul.ro

69
http://www.informatia-zilei.ro/BM/ http://www.glasulmaramuresului.ro/ http://www.radioiasi.ro/ http://www.jurnalul.ro/ http://www.adevarulonline.ro/ http://www.romanialibera.ro http://www.independent-al.ro/ http://www.evenimentulzilei.ro/ http://www.sindromania.ro/ http://cnc.ise.ro/ http://www.ise.ro http://www.cnfis.ro http://www.adobe.com/prodindex/acrobat/readstep.html http://www.cedu.ro http://www.credis.ro http://www.unicef.org http://www.intercultural.ro http://www.romacenter.osf.ro http://www.savethechildren.net/romania http://www.impreuna.go.ro http://www.thinkquest.org http://www.thinkquest.org/tqic/tqic_rules.html http://library.thinkquest.org/C001468F/ http://www.thinkquest.multinet.ro http://www.thinkquest.multinet.ro/parteneriate.htm http://www.adobe.com/prodindex/acrobat/readstep2.html http://www.guv.ro http://www.mct.ro http://news.edu.ro http://www.abid.net/Train http://www.qsystems.es/gipsy http://www.geocities.com/paris/5121/patrin.htm http://www.romani.org/toronto http://www.romani.org/wcra http://www.lpb.bwue.de/gedenk/gedenk14.htm http://www.dag.it/franzese/CSZ.htm http://www.osi.hu/roma http://www.aloha.net/-bohem/rishroma.html. http://www.burseguvern.ro http://www.burse.edu.ro http://portal.edu.ro http://admitere.edu.ro http://bacalaureat.edu.ro http://subiecte.edu.ro http://titularizare.edu.ro http://euro200.edu.ro http://www.recunoastere.edu.ro http://rural.edu.ro http://forum.edu.ro

70

Lista URL-urilor extrase la vizitarea http://www.edu.ro

http://cnc.ise.ro http://rural.edu.ro/ http://www.tvet.ro http://www.ise.ro/ http://www.cncsis.ro/ http://www.cnfis.ro/ http://www.socrates.ro/ http://www.leonardo.ro/ http://www.olimpiade.ro http://www.didactic.ro http://www.holcimawards.com/ http://www.cristiantopescu.ro/ http://aira.astro.ro/scienceonstage http://www.apart.ro http://www.coe.ro/ http://www.snac-ro.org http://www.infomatrix.ro http://cia.buzau.ro http://isj.bc.edu.ro http://www.dol.ro http://www.infoeducatie.ro http://www.isjbn.ro http://www.infoiasi.ro/boi2003 http://liceu.oni.pcnet.ro/ http://gimnaziu.oni.pcnet.ro http://www.eduitbr.ro/ http://www.e-vrancea.com/oji/ http://www2.portal.edu.ro/adlic/jive2 http://www.fdr.ro/ro/program1.php3?id=5 http://www.fdr.ro http://www.dnttm.ro/~cncb http://www.cnlazar.ro http://www.socrates.ro http://www.editurasfmina.ro/semdor http://www.lme.ro http://www.infoiasi.ro/~iasimin/ia/ http://www.liis.ro http://economic.buzau.ro http://coanda.bc.edu.ro http://cnmv.ploiesti.roedu.net/ http://liceul_g_calinescu.tripod.com http://national.is.edu.ro http://www.gscfr.pascani.ro http://www.reginamaria.pchouse.ro http://www.titulescu.multinet.ro http://www.victorgomoiu.go.ro/ http://www.hcoanda.ro/ http://www.users.rol.ro/lshtecuci http://lgi.is.edu.ro

71
http://www.semmnt.ro http://www.costescu.severin.rdsnet.ro/economic http://www.cnt.ro http://www.cntv.ro http://www.eun.org http://www.al.odobescu.go.ro http://www.silvic-nasaud.go.ro http://www.decebalmh.ro http://titeica.ts.terrasat.ro http://www.licteologicblaj.cnet.ro http://www.matei-basarab.rdscv.ro http://www.lefo.ro http://www.lefo.ro/coastalcities/Site_Quimper_Eng_ver/index.htm http://nuke.lefo.ro http://www.liceulagricol-horia.home.ro http://www.nbasarab.ro http://www.artelecom.net/arteplasticecj http://www.gselp.home.ro http://cnrn.t35.com http://www.cjnicolau.as.ro http://www.racai.ro/ra/ra.html http://www.britcoun.org/romania/index.htm http://www.instfrbuc.ro/ http://www.canad.ro/itcultro/ http://tempus.kappa.ro/ http://www.leonardo.ro http://Biblioteca.euroweb.ro http://www.csc.matco.ro/ http://www.europa.eu.int/en/comm/dg22/dg22.html http://www.eurydice.org http://www.bmbf.de http://www.bmwf.gv.at/ http://www.ed.gov http://goldmine.cde.ca.gov http://www.open.gov.uk/dfee/dfeehome.htm http://www.minedu.fi/index.html http://www.education.gov.il/english/ http://www.moe.ac.sg/ http://www.monbu.go.jp/emindex.html http://www.cci.ubbcluj.ro/prospective-students/summer-schools.htm http://www.unibuc.ro/en/anunturi_main_en2?wid=29285&func=viewSubmission&sid=71 http://cis01.central.ucv.ro/litere/cursuri_vara/Brancusi.en.htm http://www.univ-ovidius.ro/letters/scc/ http://mail.lit.uaic.ro/cursuridevara/ http://www.litere.uvt.ro/summer_courses.htm http://scgenerala.s5.com http://www.scgenerala.s5.com/proiect/artgallery.html http://www.gymck.cz http://scoala39.tripod.com/

72

Lista URL-urilor extrase la vizitarea http://www.edu.ro

http://www.scoala5calarasi.ro http://www.scoalaplevna.ro http://www.1-centrupilot-calarasi.go.ro http://www.proeducatia.go.ro http://www.aurelvlaicu.ro http://myeurope.eun.org http://tehnoprest.com/scoala5 http://efnord.eforie.ro http://www.freewebs.com/scoala2tm/ http://igduca.home.ro http://sc5roman.edunet.ro http://www.eco-scoala-gura-humorului.go.ro http://www.revista-amicii.ro http://www.winzip.com/ddchome.htm http://www.ecml.at/helpcd/splash.htm http://www.winzip.com/upgradex.htm http://www.cncsis.ro/granturi http://europa.eu.int/comm/education/erasmus/million_en.html http://www.umfcv.ro http://www.valahia.ro Pagini vizitate = 5001 URL-uri gasite = 541

Anexa C Contabilizarea URL-urilor c atre http://www.edu.ro

Figura C.1: Contabilizarea URL-urilor c atre http://www.edu.ro

73

74

Contabilizarea URL-urilor c atre http://www.edu.ro

Observat ie C.0.2. Prima coloana prezint a URL - ul a sa cum a fost el extras de robot, coloana a doua URL-ul site-ului web unde a fost g asit iar cea de-a TM treia coloan a PageRank -ul a sa cum era el raportat de Google Toolbar.

Bibliograe
[1] Monika R. Henzinger, Allan Heydon, Michael Mitzenmacher, Marc Najork Measuring Index Quality using Random Walks on the Web. [2] Ziv Bar-Yossef, Alexander Berg, Steve Chien, Jittat Fakcharoenphol, Dror Weitz, Approximating Aggregate Queries about Web Pages via Random Walks. [3] Charles M. Grinstead, J. Laurie Snell, Introduction to Probability [4] Wikipedia The Free Encyclopedia (http://en.wikipedia.org/) [5] A. Broder, R. Kuman, F. Maghoul, P.Raghavan, S.Rajagopalan, R. Stata, A. Tomkins, J. Wiener Graph structure in the web: experiments and models. [6] Amy N. Langville, Carl D. Meyer A Survey of Eigenvector Methods for Web Information Retrieval - (http://www4.ncsu.edu/anlangvi/) [7] Google (http://www.google.com) [8] Sabin-Corneliu Buraga - Robot ii web (Articol ap arut n PC Report, vol.9, nr.92, mai 2000) [9] WebSPHINX - A Personal, Customizable Web Crawler (http://www2.cs.cmu.edu/rcm/websphinx/) [10] Robert C. Miller, Krishna Bharat SPHINX - A Framework for Creating Personal, Site-Speic Web Crawlers (http://www2.cs.cmu.edu/rcm/papers/www7/www7.html/) [11] Web Data Extrator 4.0 (http://www.webextractor.com) [12] Google Toolbar (http://toolbar.google.com/)

75

S-ar putea să vă placă și