Sunteți pe pagina 1din 7

Clasificarea Tehnicile de clasificare pe care le folosim sunt derivate din regasirea informatiei .

Clasificarea este folosita pentru a gsi o potrivire aproximativa a interogrilor pe bazele de date de text , i este utilizat pe scar larg n motoarele de cutare pe internet i a altor sisteme de regasire a textului ( Witten i colab . , 1999) . Este un proces n dou etape . n prima etap , colecia este indexata ( Witten i colab . , 1999) . a doua etap a procesului de clasificare se realizeaza cnd o interogare este prezentata unei colecii . Interogarea este utilizata pentru a conduce calcul de un scor de similaritate pentru fiecare document stocat n colecie , folosind o funcie cunoscut ca o masura de similaritate ( Witten i colab . , 1999) . Documentele sunt clasificate descrescator dupa scor , iar documentele cu cel mai mare/mic scor sunt returnate pentru utilizator . Aceasta tehnica nu da un raspuns afirmativ sau pozitic la ntrebarea dac documentele sunt relevante pentru utilizator , dar le ordon dupa estimarea probabilitatii de relevan . Sanderson ( 1997) a utilizat o form de aceastei tehnici pentru a identifica documentele identice , dar nu furniza nici o informaie tehnica . Informaiile necesare pentru a evalua interogarea depinde de masura de similaritate utilizata . Prin modificarea masurii de similaritate, eficiena motorului de clasificare poate fi modificat drastic . Urmtoarea notaie i statistici sunt utilizate n msurile de similaritate testm . N -numrul

documentelor din colecie , n -numrul de distincte termeni n colecia , ft , numrul de documente care conin termen t , FD , t - numrul de apariii de termen t n documentul d , FD - numrul de termeni din document d ; WD- greutatea ( sau durata ) a documentului d , D - document colectare , q - documentul de interogare , d - un document colectare D. Au fost implementate dou familii de msuri de similaritate pentru acest articol : msuri - standard, inclusiv interior produs , un produs scalar normalizat , iar cosinusul msur i msurile noastre de identitate , descrise n seciunea urmtoare .

Inner product Msura inner product este unua dintre cele mai simple msuri practice de similaritate ( Witten et al. , 1999) . este un produs de dou componente - frecvena termen i termen n greutate i se calculeaz pentru fiecare termen care apare att in interogarea cat si in document . Frecvena termen lung este o expresie reprezentnd importana fiecrui termen n documentului , calculat ca 1 ? fd Loge , t . Greutatea termen lung este o expresie aimportanei global al termenului , calculat ca Loge ( 1 ? N / ft ) . Produsul interior se calculeaz cu: ? t?q?d ? 1 ? Loge fd , t ? ? loge ? 1 ? N ft ? Produsul intern d greutate mare la documente n care termeni de cutare apare un numr mare de ori . partea efect al acestui fapt este c documentele mai lungi tind s fie mai foarte clasate ( Witten i colab . , 1999) . Avantajul msur produs interior este viteza de calcul . interior

msur de similitudine produs nu este de ateptat pentru a efectua bine n detectarea coderivatives datorit faptului c favorizeaz lung documente , dar este o valoarea iniial interesant .

Normalizat interior de marfuri Produsul scalar normalizat este de a remedia problem de documente lungi fiind favorizate de standardul msur produs scalar (Witten i colab., 1999). interior produsul este iniial calculat ca mai sus, dar este similaritatea normalizeaz dup termeni de cutare au fost prelucrate, prin mprirea scorul de similaritate de rdcina ptrat a lungime de documente. Expresia complet este 1 ? fd ?? t? q? d ? 1? Loge fd, t? ? loge? 1? N ft? Normalizat Msura produs intern este nc sensibil la variaie n lungime de documente, cu toate acestea, i poate favoriza scurt documente (Witten i colab., 1999).

cosinus Msura Msura cosinus similitudine este utilizat pe scar larg n informaii cererile de recuperare pentru procesarea interogri ad-hoc . Nucleulmsurii cosinus esteprodusul scalar , care Calculeaz produsul de vectori care reprezintinterogarea i documentului . De documente i de interogare lungimi sunt calculate ca Wx ? ? ? t?d wx , t 2, pentru document sau interogare x , i sunt folosite pentru a normaliza interior produs . Greutatea interogare WQ este constant , i, prin urmare fi omise , i astfel msura cosinus poate fi reprezentat ca ( Witten et al , 1999. ) : cos ? ? 1 wd ?? t?q?d ? 1 ? Loge fd , t ? ? loge ? 1 ?

N ft ? Cu toate c aceast msur este cunoscut a fi eficient atunci cnd cutarea de documente folosind interogri scurte ad-hoc , aceasta nu este concepute pentru detectarea coderivatives . n special ,cosinus msur are scopul de a compensa diferenele de lungime , dar n detectarea coderivatives lungimile absolute documentului de interogare i document stocat sunt de o importan . Ne-am dezvoltat msura de identitate special pentru a adresa aceast problem .

S-ar putea să vă placă și