Sunteți pe pagina 1din 5

On an algorithm for identifying sessions from web logs

Dumitru Ciobanu, Claudia Elena Dinuc Faculty of Economics and Business Administration, University of Craiova Email: ciobanubebedumitru@yahoo.com, clauely4u@yahoo.com

Abstract. The quality of decisions is based on the quality of processed data. So it is important that at the beginning of the data mining process to provide correct and quality data. The preprocessing data is a necessity for avoiding the essec of the data analysis. The idea that the data mining process can be done without human supervision has prove to be wrong. Even so, the humans are trying to automate as much as possible the process. From here are resulting many algorithms and techniques that are implemented using various programming language. In this work is presented an algorithm for identifying the sessions from a web logs file. It calculate a mean of time depending on which one can calculate the time to help identify with increased accuracy sessions of web logs. Keywords: clickstream analysis, preprocessing data, identifying sessions .

1. Introduction
World Wide Web sau simpu web este un spaiu universal cu informaii care pot fi accesate de companii, guverne, universiti, studeni, profesori, oameni de afaceri i utilizatori oarecare. n acest spaiu universal au loc activiti de comer si publicitate. Un site web reprezint o mulime de pagini web interconectate care sunt dezvoltate i ntreinute de o persoan sau organizaie. Studiile web mining descoper i analizeaz informaii folositoare din web [6]. Web mining este un termen utilizat pentru aplicarea tehnicilor data mining logurilor de acces web [7]. Data mining este un proces netrivial de extragere a cunotinelor necunoscute anterior i potenial folositoare din baze de date de dimensiuni mari [8]. Web mining poate fi mprit n trei categorii: Web content minig, Web structure mining i Web usage mining [5]. Web content mining este procesul de extragere a cunotinelor din coninutul documentelor i din descrierea acestora. Web structure mining este procesul obinerii de cunoatine din modul de organizare a web-ului i din legturile ntre paginile web. n cazul web usage mining sunt analizate informaiile despre vizitele paginilor web, salvate n fiierele de log ale serverelor de internet n vederea descoperii de modele interesante necunoscute anterior i posibil utile. Web usage minig este descris ca aplicarea de tehnici data mining pe logurile de acces web pentru optimizarea sitului web n beneficiul utilizatorilor. Prin click-stream se nelege o secven de pagini web vizualizate de un utilizator, paginile fiind afiate cte una pe rnd la un moment dat. Analiza clickurilor este procesul de extragere a cunotinelor din logurile web. Aceast analiz presupune mai nti preprocesarea datelor i apoi aplicarea de tehnici data mining. Preprocesarea datelor presupune extragerea datelor, curarea i filtrarea acestora urmate de identificarea sesiunilor.

2. Identificarea sesiunilor
Identificarea corect a sesiunilor este un pas important n preprocesarea datelor provenite din logurile web. Unele studii indic o perioad de 30 de minute ntre paginile vizitate ca fiind suficient pentru a stabili finalul unei sesiuni i debutul alteia. Totui aceast perioad poate s nu fie suficient pentru anumite tipuri de site-uri web spre exemplu n cazul celor pe care se gsesc documente pe care utilizatorul le citete. Tot la aceast categorie se pot ncadra i site-urile de comer pe paginile crora se gsesc opinii despre produsele oferite. Trebuie inut cont i de faptul c persoanele au nevoie de

timp diferit pentru a acoperi aceeai cantitate de informaii; spre exemplu o persoan n vrst poate urmri mai ncet informaia prezentat pe site-ul web. La fel n cazul unui potenial client care dorete s se informeze mai bine despre un produs se poate depi aceast perioad de timp iar analistul s considere ncheiat o sesiune n mod eronat; timpul mai lung petrecut pe pagina web n acest caz evideniind interesul fa de produs i poate dorina de a cumpra produsul dect de a prsi site-ul web. Mai multe decizii greite de identificare a sesiunilor pot altera simitor rezultatele obinute n urma aplicrii tehnicilor data mining. n ncercarea de a reduce erorile comise la identificarea sesiunilor propunem modificarea algoritmului de identificare a sesiunilor. Descrierea modelului. Considerm IP mulimea ip-urilor utilizatorilor IP={IP1, IP2, , IPn}. PIPk mulimea paginilor vizitate de utilizatorul identificat prin ip-ul IPk, PIPk={ PIPk1, PIPk2, , PIPkr} i TS_PIPki timestamp-ul paginii PIPki. Vom nota prin ID_PIPki id-ul de sesiune atribuit paginii PIPki i cu ID mulimea acestor id-uri. Algoritm Pentru fiecare ip IPk repetm Dac | PIPk |=1 atunci ID_PIPk1=max(ID)+1; Altfel ID_PIPk1=max(ID)+1; I=1; Atata timp cat (I<| PIPk |) repeta I=I+1; Daca TS_PIPki- TS_PIPki-1<1800 atunci ID_PIPki= ID_PIPki-1; Altfel ID_PIPki= ID_PIPki-1+1; n tabela cu loguri din baza de date crem o coloan n care s pstrm timpul ct a stat utilizatorul pe pagina respectiv fr a ine cont de sesiuni. Se selecteaz paginile dup fiecare IP n parte ordonate dup timestamp i se face diferena ntre timestamp-urile paginilor consecutive. n cazul ultimei pagini atribuim o valoare foarte mare spre exemplu 20000 de secunde. Acum putem calcula n diferite moduri un timp mediu petrecut de utilizatori pe o pagina web. Stabilim totui o limita maxim de timp de 2 ore pentru timpul alocat vizitei unei pagini i o limita minim de 2 secunde. Eliminm nregistrrile care sunt n afara limitelor i calculm media timpului petrecut pe o pagin de utilizatori. n funcie de aceast medie decidem timpul cu ajutorul cruia se va decide dac pagina face parte din sesiunea veche sau este prima pagin dintr-o sesiune nou. Dac timpul mediu petrecut de utilizatori pe pagina respectiv este apropiat de 30 minute este clar c algoritmul prezentat mai sus va produce erori n identificarea sesiunilor.

3. Studiu de caz
Am utilizat baza de date cu loguri NASA ce poate fi downloadat gratuit accesnd linkul ....... . Am calculat timpul ct un utilizator a stat pe o pagin. Pentru aceasta am procedat n modul urmtor. Mai nti am selectat toate id-urile distincte. Pentru fiecare id am selectat codurile paginilor vizitate i timestamp. Dac avem o singur pagin vizitat atribuim timpului o valoare prestabilita de 20000 secunde. Dac avem mai multe pagini vizitate, calculm timpul ca fiind diferena dintre dou timestampuri consecutive iar pentru ultima pagina atribuim din nou valoarea prestabilit de 20000. Dup faza de preprocesare a datelor s-au obinut 47583 de nregistrri dup cum se poate observa i n figura 1,

Fig. 1. pentru 508 pagini distincte aa cum se poate observa n figura 2

Fig. 2. i 12805 id-uri distincte evideniate n figura 3.

Fig. 3. Din cele 508 pagini 118 au fost vizitate doar odat sau de dou ori, vezi figura 4.

Fig. 4. Pentru calculul mediei timpului petrecut pe o pagina am eliminat timpii mai mari de 19000 i am grupat dup codurile paginilor.

Fig. 5. n figura 5 am afiat paginile n ordinea descresctoare a timpului mediu petrecut pe acele pagini de utilizatori. Astfel pentru cele 14 pagini pentru care timpul mediu de vizitare depete 1500 de secunde probabilitatea de a presupune terminat o sesiune n mod eronat este foarte mare. Vom studia mai ndeaproape cazul paginii 207 care are cele mai multe vizite i pentru care timpul mediu de vizitare este de 1608,80 secunde. Dintre cele 966 de vizite ale paginii 207, 197 au un timp de vizitare mai mare de 1800 secunde (Fig.6.) i pot duce la erori n ceea ce privete identificarea sesiunilor.

Fig. 6. Ultima observaie justific propunerea nlocuirii n algoritmul de identificare a sesiunilor a valorii de 1800 de secunde (30 minute) cu o alt valoare care s depind de timpul mediu.

4. Concluzii
Pentru o analiz reuit a clickurilor web se impune utilizarea unor date ct mai corecte. Identificarea sesiunilor este un pas important n preprocesarea datelor a crui realizare necorespunztoare poate infuena negativ rezultatele obinute. Precizm c determinarea timpului mediu de vizitare a paginilor web necesit, n funcie de dimensiunile fiierelor de log utilizate, o anume perioad de timp care face nerentabil determinarea n timp real. ns calcularea timpului mediu se poate face offline i se poate actualiza, n funcie de nivelul de accesare a site-ului web, zilnic, sptmnal sau chiar mai rar. Utilizarea unui timp calculat n fucie de timpul mediu pentru identificarea sesiunilor crete acurateea datelor ce vor fi utilizate n procesul de extragere a cunotinelor. Rmne deschis problema privind diferite metode de calculul al unui timp n funcie de timpul mediu care s aib efectul maxim n momentul utilizrii pentru identificarea sesiunilor.

Bibliografie
1. Srivastava J., Cooley R., Deshpande M., Tan P.-N., Web usage mining: discovery and applications of usage patterns from web data, SIGKDD Explorations, 1(2), 2000, 12-23. 2. Mobasher B., Cooley R., Srivastava J., Creating Adaptive Web Sites trough usage based clustering of URLs, IEEE knowledge & Data Engg work shop (KDEX99), 1999. 3. Brendt B., Spiliopoulou M., Analysis of Navigation Behaviour in Web Sites Integrating Multiple Information Systems. VLDB, 9(1), 2000, 56-75. 4. Kohavi R., Parekh R., Ten supplementary analysis to improve e-commerce web sites, Proceedings of the Fifth WEBKDD workshop, 2003. 5. Zaiane O., Han J.: WebML: Querying the World Wide Web for resources and knowledge. In: Workshop on Web Information and Data Management WIDM98, Bethesda, 1998, 9-12. 6. Cooley R., Mobasher B., Srivastava J.: Web mining: Information and Pattern Discovery on the World Wide Web. A survey paper. In: Proc. ICTAI-97, 1997. 7. Zaiane O.: Conference Tutorial Notes: Web Mining: Concepts, Practices and Research. In: Proc. SDBD-2000, 2000, 410-474. 8. Piatetsky-Shapiro g., Fayyad U., Smith P., Uthurusamy R.: Advances in Knowledge Discovery and Data Mining., AAAI/MIT Press, 1996. 9. Liu B.: Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, Springer Berlin Heidelberg New York, 2006. 10. Hay B., Geert W., Koen V.: Discovering interesting navigations on a web site using SAMI, Springer-Verlag Berlin, 2005. 11. Li T. R., Xu Y., Ruan D., Pan W. M.: Sequential Pattern Mining, Springer-Verlag Berlin, 2005. 12. Clark L., Ting I., Kimble C., Wrigth P., Kudenko D.: Combining Ethnographic and Clickstream Data to Identify Strategies Information Research 11(2), paper 249, 2006.