Documente Academic
Documente Profesional
Documente Cultură
1. Aspecte teoretice
1.1. Vector Space Model In cadrul Vector Space Model, fiecrui document ii este ataat un vector de caracteristici, a crui dimensiune este dat de numrul de atribute unice care se regsesc n documentul din colectie. Fiecare element al vectorului are o pondere care specific importana atributului n clasificarea documentului. De regul, aceste atribute sunt extrase din document folosind metode de regsirea a informaiei. Faza de extragere a termenilor care caracterizeaz un document este numit indexarea documentului. In faza de atribuire de ponderi pentru fiecare termen se stabilete semnificaia n caracterizarea documentului. Aceste ponderi pot avea valorile 0 sau 1, indicnd existena (1) sau nu (0) a termenilor in document. De regul, este mult mai raspndit folosirea frecvenei de ntlnire a termenului n cadrul documentului. Tf se folosete pentru a reprezenta frecvena de apariie a termenului n document, iar Idf reprezint inversul frecvenei de ntlnire a termenului n ntreaga colecie. n Idf = log( k ) , unde nk este numrul de documente n care apare termenul, iar N este numarul total de documente. In etapa urmtoare trebuie aleas o msura de similaritate pentru calculul asemnrii dintre dou documente. Cea mai folosit msur pentru similaritate este cea a coeficienilor cosinus, care determin cosinusul unghiului dintre doi vectori de caracteristici. Alte msuri utilizate sunt cele ale coeficienilor Jaccard sau ale coeficienilor Dice, ambele fiind normalizri ale potrivirii simple a coeficienilor. Coeficienii Jaccard sunt msuri de similaritate ntre seturi de atribute, i sunt definii ca raport ntre numrul de elemente ale interseciei i numrul de elemente ale reuniunii setului de atribute : A B J ( A, B ) = A B Distana Jaccard, care determin diferen ntre seturile de test, este complementar coeficientului Jaccard i este obinut prin scderea coeficientului Jaccard din 1: A B A B J ( A, B ) = 1 J ( A, B ) = A B
Coeficienii Dice sunt msuri de similaritate ntre seturi de atribute, i sunt definii 2 A B J ( A, B ) = conform formulei: A+B
indic gradul de apartenen a documentului la al i-lea cluster. Cel mai utilizat algoritm de clusterizare fuzzy este Fuzzy c-means, care este o variaie a algoritmului partiional kmeans. Clusterizarea bazata pe reele neurale. SOM (Self-Organizing Maps - Kohonen) este un model de reea neural nesupervizat des folosit. Const din dou straturi: nivelul de intrare cu n noduri de intrare, corespunzator celor n documente i stratul de ieire cu k noduri de ieire, care corespunde celor k regiuni de decizie. Fiecrei din cele k uniti de ieire i este asignat un vector de ponderi. In timpul unui pas de nvare, un document din colecie este asociat cu un nod de ieire care are cel mai similar vector de ponderi. Vectorul de ponderi a nodului ctigator este apoi adaptat n asemenea fel nct va fi i mai aproape de vectorul care reprezint acel document. Ieirea algoritmului este aranjamentul documentelor de intrare ntr-un spaiu 2-dimensional n asemenea fel nct similaritatea dintre dou documente de intrare este oglindit n termenii distanei topografice dintre cele k regiuni de decizie.
1.3. Algoritmul k
- K- earest eighbour
Principiul acestei metode este clasificarea unui document prin gsirea documentului cel mai apropiat din setul de antrenament. Metodele care se bazeaz pe acest principiu sunt numite metode de nvare bazat pe memorie. Sunt folosite ponderile termenilor Tf i Idf, calculndu-se similaritatea dintre exemplele de test i centroizii clusterelor. Ponderea asignat unui termen este o combinaie a ponderilor sale ntr-o interogare original i documentele considerate relevante i irelevante. In algoritmul de mai jos se folosete distana Euclidian pentru a determina similaritatea dintre dou documente.
Algoritm: %input K: number of neighbours X: training set patterns Y: class labels of the training set z: new pattern
%output l: predicted label of new pattern for each x in X compute Euclidean distance of z from x d(x) = distance(z,x) d is an array containing the distances of all x in X from z end; ;order patterns of X in increasing order of d(x) (sorted_d, index) = sort(X,d) sorted_d is the list of elements of d sorted in increasing order, and index(i) is the index in X of the i-th element of sorted_d neighbours = index(1:k);
;index(1:k) are the first k elements of index label_neighbours = Y(neighbours); ;Y(neighbours) are the elements of Y with index equal to neighbours; l = majority(label_neighbours); ;majority(label_neighbours) is the class label occurring more times in the ;label_neighbours list.
2.
Teme
Implementai, testai i interpretai rezultatele pentru vector space classification, folosind ca date de intrare urmtoarele descrieri i fisiere de intrare :
2.1. In cadrul arhivei reuters.zip se gasesc documente in format sgml care conin tiri ale ageniei Reuters. Sa se indexeze aceste documente folosind ponderea wi , k ; i este un cuvant din documentul k: n wi , k = fi , k * log( i ) ,
unde fi , k reprezint frecvena cu care cuvntul i apare n documentul k, N este numrul total de documente angrenate in faza de antrenare, iar ni este numrul total de apariii ale cuvantului i n ntreaga colecie. Folosind algoritmul de mai sus pentru metoda kNN de clasificare s se dezvolte o aplicaie care s permit determinarea celui mai apropiat grup de documente pentru un document ce conine tiri i care este specificat ca intrare.
2.2. Pentru setul de imagini binare (imagini.zip) din cadrul laboratorului 3 sa se foloseasc algoritmul kNN pentru a determina clasa creia ii aparine o cifr din cadrul unei imagini de iterogare.
2.3. Pentru setul de date in format arff din cadrul arhivei hepatitis.zip sa se ruleze algoritmi de clasificare Naive Bayes si kNN (IBk) - k = 4 din cadrul Weka. S se compare performanele celor dou clasificatoare. S se descrie diferenele observate ntre cele dou tipuri clasificri.
3.
Bibliografie
[1] Salton, Gerard. Automatic Text Processing. Addison-Wesley Publishing Company, 1988 [2] http://people.revoledu.com/kardi/tutorial/Similarity/Jaccard.html [3] http://www.daviddlewis.com/resources/testcollections/reuters21578/