Documente Academic
Documente Profesional
Documente Cultură
Procese Stocastice
Procese Stocastice
Seminar 13
Mai 2017
ii
”Viitorul incepe astazi, nu maine.”
Papa Ioan Paul al II-lea
Algoritmul PageRank:
1
Documentele de pe web (paginile web) sunt identificate de aplicatiile software
ale motorului, numite roboti sau crawlere. Documentele sunt apoi indexate.
Modulul de indexare extrage cuvintele cheie constituind asa numitul sac de cu-
vinte. Un alt modul, numit query module (modulul de interogare), converteste
cererea formulata de utilizator in limbaj natural, intr-un vector cerere, cu care
consulta indexul de continut si extrage paginile relevante cererii. Modulul de
ierarhizare ordoneaza aceste pagini in ordinea descrescatoare a popularitatii lor.
PageRank-ul este un vector ale carui coordonate sunt coeficientii de popular-
itate ai paginilor web identificate de crawler. Acest vector este distributia de
echilibru a unui lant Markov definit pe graful web.
Sa definim mai precis lantul Markov ce sta la baza algoritmului PageRank.
Fie 𝑊 = {1, 2, ..., 𝑚}, multimea tuturor paginilor web, 𝐻 = (ℎ𝑖𝑗 ) matricea de
conectivitate a lui 𝑊 , sau matricea hyperlink:
{︃
1, daca exista hyperlink in pagina 𝑖 catre pagina 𝑗
ℎ𝑖𝑗 =
0, daca nu exista hyperlink in pagina 𝑖 catre pagina 𝑗
H este o matrice rara, adica cu foarte multe zerouri (in medie cu 3 − 10 elemente
nenule pe o linie). Suma elementelor de pe linia 𝑖 a matricii 𝐻 indica numarul
de out-linkuri, adica numarul de linkuri din pagina 𝑖, catre alte pagini sau catre
ea insasi. Notam aceasta suma cu:
𝑚
∑︁
𝑟𝑖 = ℎ𝑖𝑗
𝑗=1
{︃
1
𝑃𝑖𝑗 =
ℎ𝑖𝑗
= 𝑟𝑖 , daca exista link in pagina 𝑖 catre pagina 𝑗
𝑟𝑖 0, daca nu exista link in pagina 𝑖 catre pagina 𝑗
De exemplu daca:
⎛ ⎞
0 0 1 1 0 0 1 0 0 1
⎜ ⎟
⎜ ⎟
⎜1 0 0 0 1 0 0 1 0 0⎟
𝐻=⎜ ⎜
⎟
⎟
⎜. . . . . . . . . ... ... ... ... ... ... . . .⎟
⎝ ⎠
0 0 1 0 0 1 0 1 0 0
2
ℎ
cu 𝑃 = (𝑃𝑖𝑗 ) matricea probabilitatilor de tranzitie 𝑃𝑖𝑗 = 𝑟𝑖𝑗𝑖 , 𝑖, 𝑗 = 1, 6. Se
observa din structura grafului de conectivitate ca paginile 2 si 6 sunt pagini ce
nu contin link-uri catre alte pagini. Acestea se numesc dangling pages. De
exemplu fisierele pdf, ps sau fisierele imagine sunt pagini dangling. Prin
urmare liniile 2 si 6 din matricea de tranzitie au toate elementele nule si astfel
𝑃 nu este o matrice stochastica, deci nu poate fi interpretata ca matricea de
tranzitie a unui lant Markov cu spatiul starilor 𝑆 = {1, 2, 3, 4, 5, 6}:
3
graful WEB nu este tare conex) si pot exista traiectorii periodice, adica surferul
navigand conform matricii de tranzitie 𝑄 ar putea fi prins ca intr-o capcana,
intr-o miscare aleatoare ciclica. Din acest motiv, dar si pentru ca la un mo-
ment dat si in realitate, orice surfer renunta sa navigheze urmand linkurile din
pagini, cei doi, L. Page ¸si S. Brin, au introdus ipoteza ca doar cu probabili-
tatea 𝛼 ∈ (0, 1), surferul navigheaza conform matricii 𝑄 si cu probabilitatea
complementara, 1 − 𝛼, ignora hyperlink-urile si alege cu probabilitate uniforma
oricare din paginile de pe web, introducand adresa URL in linia de comanda a
browser-ului. Probabilitatea 𝛼 se numeste factor de damping si in lucrarea ini-
tiala a fondatorilor Google, 𝛼 era mentionat ca avand valoarea 0.85. Cu aceasta
modificare matricea de tranzitie este:
⎛ ⎞
1 1 1
. . .
⎜𝑚 𝑚 𝑚⎟
⎜1 1 1 ⎟
⎜𝑚 𝑚 ... 𝑚 ⎟
𝐺 = 𝛼𝑄 + (1 − 𝛼) ⎜ ⎜
⎟
⎟
⎜. . . . . . . . . . . .⎟
⎝ ⎠
1 1 1
𝑚 𝑚 . . . 𝑚
1
Matricea 𝐺 se numeste matricea Google, iar matricea de elemente identice 𝑚 ,
notata 𝐸, se numeste matricea de teleportare, deoarece surferul se teleporteaza
din navigarea aleatoare urmand link-uri intr-o ”navigare artificiala”. Evident
ca si matricea 𝐸 este o matrice stochastica pe linii, iar 𝐺 fiind o combinatie
convexa de astfel de doua matrici este o matrice stochastica. Mai mult:
𝐺𝑖𝑗 > 0, ∀ 𝑖, 𝑗 = 1, 𝑚
4
a atins stadiul de convergenta (adica s-a ajuns la echilibru) intr-o etapa 𝑛, in
care ‖𝑝(𝑛) − 𝑝(𝑛 − 1)‖ < 𝜀, unde 𝜀 este un numar pozitiv foarte mic, prescris.
S-a demonstrat ca viteza de convergenta a metodei puterii este aceeasi cu
rata de convergenta a lui 𝛼𝑛 , unde 𝛼 este factorul de damping. Implicatii
asupra PageRankului. Din punctul de vedere al vitezei de convergenta ar fi
preferabil un factor 𝛼 cat mai apropiat de zero. In acest caz insa tinand seama
ca matricea Google este 𝐺 = 𝛼𝑄 + (1 − 𝛼)𝐸, ar rezulta ca se acorda o pondere
redusa 𝛼 navigarii conform linkurilor din graful WEB (cu modificarea pentru
pagini dangling) si o pondere mai mare navigarii artificiale, conform matricei de
teleportare 𝐸. Cu alte cuvinte in acest caz PageRank–ul asociat nu ar reflecta
popularitatea reala a paginilor web. De aceea o valoare rezonabila, asa cum
a fost ea aleasa init¸ial de Larry Page si Serghei Brin, 𝛼 = 0.85, conduce
la rezultate mai apropiate de realitate si la o viteza de convergenta suficient
de buna (un reprezentant Google a declarat ca metoda puterii converge dupa
100 − 200 de iteratii). Daca vreti sa aflati Pagerankul unor pagini WEB intrati
aici:
Pentru o ierarhizare personalizata a paginilor web, matricea de teleportare
𝐸, se calculeaza luand in considerare vectorul personalizat 𝑤, ce este un vector
probabilist ale carui coordonate 𝑤 = (𝑎1 , 𝑎2 , ...𝑎𝑚 ), reprezinta probabilitatea ca
surferul, ce iese din navigarea conform linkurilor, sa aleaga pagina 1, 2, ..., 𝑚, din
web. Cu alte cuvinte el nu alege o pagina in mod uniform, ci are anumite prefer-
inte, identificate de motor in decursul timpului. Astfel matricea de teleportare
va fi 𝐸 = 𝑒𝑤 , unde 𝑒 = (1, 1, ..., 1)𝑡 , si matricea Google, corespunzatoare:
𝐺 = 𝛼𝑄 + (1 − 𝛼)𝑒𝑤
5
Notiuni teoretice:
Notiuni utile: proces stocastic, stare esentiala, stare tranzienta, stare aperi-
odica, perioada unei stari esentiale, lant Markov ireductibil
Lanturi Markov finite
∙ evolutia in timp a unui sistem (𝑋𝑘 )𝑘≥0 reprezinta un lant Markov finit
daca:
=⇒ starile posibile ale sistemului apartin unei multimi numita multimea
starilor:
𝑆 = {𝑠1 , 𝑠2 , . . . 𝑠𝑛 }.
=⇒ starea viitoare a sistemului depinde doar de starea prezenta nu si de
starile trecute:
𝑝𝑖 (𝑘) = 𝑃 (𝑋𝑘 = 𝑖)
uneori vom folosi notatia:
6
𝑛
∑︁
𝑝𝑖 (𝑘) = 𝑝𝑗 (𝑘 − 1) · 𝑃𝑗𝑖
𝑗=1
𝑝(𝑘) = 𝑝(𝑘 − 1) · 𝑃
∙ probabilitatea ca lantul sa evolueze pe traiectoria 𝑠0 , 𝑠1 , 𝑠2 , ..., 𝑠𝑘 ∈ 𝑆 este:
𝑝(𝑛) = 𝑝(0) · 𝑃 𝑛
7
∙ pentru un lant Markov regulat exista un unic vector de stare 𝑣 astfel ca
pentru orice vector initial de stare 𝑣0 :
𝑣0 𝑃 𝑛 → 𝑣, 𝑛→∞
𝑣𝑃 = 𝑣
si
𝑣1 + 𝑣2 + . . . + 𝑣𝑛 = 1.
∙ un lant Markov finit este aperiodic si ireductibil daca si numai daca este
regulat.
8
Probleme rezolvate
Problema 1. Un grup de soareci se afla intr-o cusca care are trei com-
partimente conectate intre ele A, B si C. Soarecii din compartimentul A
se muta in compartimentul B cu o probabilitate 0.3 si in C cu o probabili-
tate 0.4. Cei din compartimentul B se muta in A sau C cu probabilitatile
0.2 si 0.25, respectiv. Usa compartimentului C nu poate fi deschisa din
interior. Aflati probabilitatea cu care un soarece din compartimentul A
va ajunge in cele din urma blocat in compartimentul C.
𝐴 𝐵 𝐶
⎛ ⎞
𝐴 0.3 0.3 0.4
𝑃 = ⎜
⎜
⎟
⎟
𝐵 ⎜0.2 0.55 0.25⎟
⎝ ⎠
𝐶 0 0 1
Se observa ca starea C este o stare absorbanta, 𝑃𝐶𝐶 = 1. Conform teoriei
lanturilor Markov absorbante daca reanranjam matricea de tranzitie sub forma:
𝐶 𝐴 𝐵
⎛ ⎞
𝐶 1 0 0
𝑃 = ⎜
⎜
⎟
⎟
𝐴 ⎜ 0.4 0.3 0.3 ⎟
⎝ ⎠
𝐵 0.25 0.2 0.55
⎛ ⎞ ⎛ ⎞
0.4 0.3 0.3
obtinem 𝑅 = ⎝ ⎠ si 𝑄 = ⎝ ⎠
0.25 0.2 0.55
⎛ ⎞
1.76 1.17
Prin calcul matricea fundamentala este 𝐹 ≈ ⎝ ⎠ si matricea prob-
0.78 2.74
⎛ ⎞
0.99
abilitatilor de a ajunge in starea absorbanta C este 𝐹 𝑅 ≈ ⎝ ⎠
0.99
Asadar un soarece din compartimentul A are o sansa 99% sa ajunga blocat
in compartimentul C. (rezultat identic pentru un soarece din compartimentul
B)
9
Probleme propuse
Daca computerul este in modul 1 la ora 5 : 30 pm, care este probabilitatea sa fie
in acelasi mod la ora 7 : 30 pm in aceeasi zi ?
Problema 3. La sfarsitul lui iunie 40% dintre votanti sunt inregistrati ca fiind
liberali, 45% ca si conservatori si 15% independenti. Peste o luna liberalii si-au
pastrat 80% conservatori iar 5% s-au declarat independenti. Conservatorii si-au
pastrat 70% dintre votanti si au pierdut 30% in favoarea liberalilor. Independen-
tii au pastrat 60% dintre votanti si au pierdut 20% in favoarea liberalilor si a
conservatorilor. Presupunem ca aceste trenduri vor continua.
a. Scrieti o matrice de tranzitie folosind aceste informatii.
b. Aflati procentajul fiecarui tip de votanti la finalul lui august.
c. Daca ar avea loc alegeri in octombrie 2018 care partid va avea cele mai
multe sanse sa castige alegerile ?
10
Problema 4. Un analist a pietei este interesat daca consumatorii prefera com-
puterele Dell sau pe cele HP. Doua studii de piata, realizate in decursul unui
an, au scos la iveala urmatoarele fenomene: 10% dintre detinatorii de computere
Dell au schimbat si au optat pentru unul HP in timp ce restul nu au avut motive
sa renunte la computerele lor Dell. 35% dintre cei care detineau un computer
HP au optat pentru unul Dell iar restul si-au pastrat computerele HP. Aflati
distributia pietei pentru o perioada lunga de timp.
11