Sunteți pe pagina 1din 12

Tehnici de explorare a textului in cadrul sistemelor de invatare

Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

TEHNICI DE EXPLORARE A TEXTULUI N CADRUL

SISTEMELOR DE NVARE

Profesor ANASIA SIMONA,

GRUPUL COLAR INDUSTRIAL de MARIN, GALAI

The article depicts the way computers and humans work together in order to analyze different
texts. We can easily see that a computer is able to elaborate certain methods for learning and
can apply them to text mining, but the importance of a human operator must not be minimized,
because it is necessary that this person programs the computer to process input data in order to
obtain new knowledge. The article displays learning techniques that are used by machine
learning and describes a few of the possible uses of text mining.

Key words: machine learning, learning, transduction, induction, abduction, supervising

1 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

Articolul prezint modul de colaborare dintre calculator i om, n scopul analizei textului. Dei
este uor observabil c un calculator poate realiza anumite metode de nvare i le poate
aplica pentru analiza textului, importana omului nu poate fi minimalizat, deoarece este
necesar ca acesta s programeze calculatorul pentru a provcesa datele de intrare n scopul
obinerii de noi cunotine. Sunt expuse tehnicile de nvare specifice sistemelor, precum i o
comparaie a acestora i o descriere a aplicabilitilor posibile.

Cuvinte cheie: machine learning, nvare, transducie, inducie, abducie, supervizare

Ca subdomeniu al inteligenei artificiale, Machine Learning se ocup cu dezvoltarea de algoritmi


i tehnici care le permit calculatoarelor s nvee. Machine learning se suprapune cu tematica
statisticii, deoarece ambele se ocup cu analiza datelor, dar, spre deosebire de statistic,
machine learning are ca domeniu de interes complexitatea algoritmic a implementrilor
computaionale. Unele sisteme de nvare ncearc se elimine necesitatea intuiiei umane n
analiza datelor, n timp ce altele adopt tehnica de colaborare dintre om i main. Intuiia
uman nu poate fi eliminat n totalitate, ntruct cel care a proiectat sistemul trebuie s
specifice modul de reprezentare a datelor i mecanismele ce vor fi utilizate n scopul
descoperirii caracteristicilor datelor.

1.Tehnicile de machine learning sunt organizate astfel:

- nvare prin abducie

- nvare prin inducie

- nvare transductiv

2 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

- nvare cu ntrire.

1.1. nvare abductiv i inductiv

De-a lungul timpului, muli autori au studiat, n domeniul vast al Inteligenei Artificiale, separat:
abducia i nvarea. Ei au artat importana lor n dezvoltarea sistemelor cu capaciti
avansate cum ar fi: abilitatea de a achiziiona i asimila informaiile n mod inteligent, de a
nelege i a se adapta factorilor externi, a planifica aciunile i a comunica cu alte sisteme.
Studiile recente au avut ca rezultat apropierea celor dou direcii n diverse contexte pentru a
mbunti capabilitile sistemelor. De aceea
este important nelegerea de ansamblu a relaiei ntre cele dou direcii i studierea
posibilitilor de aplicare i integrare efectiv.

1.1.a. nvarea prin abducie

Abducia reprezint raionamentul care duce la o explicaie n concordan cu un fapt cunoscut


anterior. nvarea abductiv reprezint operaia adoptrii unei ipoteze care ar explica toate
evenimentele sau o parte din ele. Matematic, noiunea de abducie poate fi sintetizat astfel:
dat o mulime de fapte T i o mulime O de enunuri (observaii), procesul de abducie se
rezum n a gsi un set de enunuri notat H (explicarea abductiv pentru O), astfel nct:

(1)TUH=>O i

(2) TUH este o mulime consistent.

Exprimarea sub aceast form nu permite o modalitate riguroas de a gsi setul de enunuri H.

3 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

Ar fi posibil de exemplu ca observaia O s duc la o concluzie imediat, fr a fi necesar


raionamentul abductiv ce implic cunoaterea mulimii de fapte T. De asemenea se presupune
c observaia poate fi explicat abductiv prin generarea n mulimea H a unor noi teorii fr
legtur cu mulimea de fapte T. n acest caz, mulimea H nu conine explicaii abductive ale
observaiilor, n coresponden cu mulimea T. Din aceast cauz, pentru a preciza un nivel la
care explicaiile sunt necesare i pentru a nelege aceste relaii n concordan cu teoria
cunoscut pentru
un anumit domeniu de interes, elementele mulimii H,
trebuie s aparin unui domeniu predefinit, denumit domeniu abductibil". O explicaie
abductiv pentru O este vzut ca fiind o cauz, care rezult din teoria cunoscut T, examinnd
instanele acestei teorii. Presupunerile care conduc la predicatele abductibile folosite
pentru construcia explicaiilor (mulimea H) pot fi supuse unor restricii exprimate prin
constrngeri de integritate".

Este de observat faptul c un set de constrngeri de integritate reduc numrul de explicaii


pentru o mulime de observaii. n orice caz, exist situaii unde pot exista mai multe explicaii
care satisfac (nu ncalc) constrngerile de integritate. Aceasta situaie este cunoscut sub
denumirea de problema explicaiilor multiple. De fapt, abducia este descris ca o inferen spre
cea mai bun explicaie. Pn n acest punct, criteriile stabilite pot ajuta la alegerea unei
explicaii,^ prin alegerea unora ca fiind plauzibile sau de preferat fa de altele. Un criteriu des
utilizat este cel al minimalitii explicaiei.

O teorie abductiv <T, A, IO poate fi privit ca reprezentnd o colecie de stri posibile ale
problemelor. Aceste stri sunt caracterizate de subseturi ale predicatelor abductibile, care
satisfac integritatea constrngerilor IC. n aceast perspectiv, o
soluie viabil din teoria T este corect dac exist un enun care s rspund
problemei n cauz, astfel nct s fie condiionat de acel set de predicate abductibile
care definesc starea. Mai mult, aceast perspectiv ne permite s considerm o
teorie abductiv ca un obiect dinamic care evolueaz pe msur ce apar noi
informaii sub forma observaiilor (O). Aceste informaii pot fi asimilate prin
schimbarea coleciei de presupuneri abductibile acceptate i a enunurilor
corespunztoare n teoria abductiv, acceptndu
-le
numai pe acelea pentru care O este
adevrat.

1.1.b. nvarea inductiv

nvatarea inductiv nu asigur corectitudine matematic. Inducia apare cnd punem cap la

4 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

cap biii de informaie culei i folosim propriile noastre cunotine i


experiene n observarea datelor care pot fi adevrate. nvarea inductiv nu
folosete silogisme ci o serie de observaii pentru a ajunge la o concluzie. Procesul
de deducie inductiv este invers fa de cel folosit n silogismele deductive,
nvatarea inductiv pornete de la nite observaii specifice ctre generalizri i
teorii. Informativ, i spunem cteodat aproximare

bottom up, de jos n sus. n


nvarea inductiv, ncepem cu nite observaii i msurtori, incepem s detectm
anumite asemnri, s formulm nite teorii care pot fi nelese, i n final terminm cu
formularea unor concluzii sau teorii generale. nvarea inductiv, prin natura sa, este mai
deschis la nou i mai uor de neles, n special pentru nceptori. Cea mai simpl
form de nvare inductiv este numit nvare prin enumerare. Atunci cnd se face
o afirmaie general (toi vnztorii sunt insisteni) ea se bazeaz pe un numr
specific de membri aparinnd acelui grup (ultimii trei vnztori care au venit la ua
mea au fost insisteni). Deasemeni se generalizeaz cnd faci o observaie despre
un lucru specific care aparine aceluiai grup (vrul prietenei mele este
vnztor, deci probabil este insisitent). Cnd folosim observaii specifice ca
fundament al unor concluzii generale, se spune c se face un pas inductiv. Succesul
unui sistem expert depinde n bun msura de existena unei baze de cunotine complete,
coerente i neredundante. Generarea regulilor din baza de cunotine se
poate realiza cu ajutorul algoritmilor de nvare inductiv.

Principala problem care poate apare n cadrul etapei de achiziie a cunotinelor unui sistem
expert const n transferul ct mai fidel al cunotinelor experilor umani
n baza de cunotine. Astfel, succesul sistemului expert va depinde n buna msur de
existena unei baze de cunotine complete, coerente i neredundante.

Cele dou inferene, abducia i inducia, utilizate n mod frecvent n domeniul Inteligenei
Artificiale, au la baz aceleai specificaii: considernd domeniul
problemei avnd la baz o teorie T i o observaie (sau un set de observaii) notat
O, sa determinm ipoteza H care satisface urmtoarea relaie:

TUH=>O(1)

Totui cele dou inferene difer n mod semnificativ prin modalitatea n care satisfac relaia de
mai sus i extind aceasta relaie n diferite direcii:

5 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

(a) Abducia obine problema din reguli i din rezultat.

(b) Inducia obine regulile din problem i din rezultat.

1.2. nvarea transductiv

Conceptul de transducie a fost introdus de Vladimir Vapnik n cartea sa publicat n 1995: "The
Nature of Statistical Learning Theory". El propune un nou mod de inferen, transducia, n locul
inferenei inductive. Figura de mai jos ilustreaz principiul transduciei:

Transducie versus inducie

Inducia (nvare supravegheat):

Ni se d o mulime de intrare corect etichetat

Trebuie s construim un clasificator bazat pe aceast mulime

6 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

Scop: minimizarea erorii ateptate pentru orice exemplu generat de aceeai distribuie ca
mulimea de intrare

Transducia (nvare semi-supravegheat):

Ni se dau mulimea de intrare i mulimea de test

Scop: minimizarea erorii ateptate pentru mulimea de test.

Cteva exemple ale clasificrii transductive a textelor:

Feedback relevant: este o tehnic standard n obinerea informaiei. Utilizatorul marcheaz


nite documente obinute n urma unei cutri ca fiind relevante sau irelevante. Acestea vor
constitui setul de antrenament pentru clasificator, iar restul coleciei de documente reprezint
setul de test.

Filtrarea tirilor pe internet: n fiecare zi sunt publicate multe articole pe internet. Pornind de la
cteva exemple clasificate de utilizator n zilele precedente, se dorete aflarea celor mai
interesante tiri pentru respectivul utilizator.

Reorganizarea unei colecii de documente: Companiile multinaionale folosesc colecii


imense de documente cu scheme de clasificare. La introducerea unor noi categorii, au nevoie
de clasificatoare de text care, pornind de la cteva exemple de antrenament, clasific automat
restul coleciei de documente.Scopul clasificrii de
text este plasarea automat a
documentelor ntr-un numr fix de categorii semantice.
Fiecare document poate fi n mai multe, exact una, sau nicio categorie.

7 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

Folosind nvarea la maini, obiectivul este de a nva clasificatorii din exemple care
asigneaz automat categoriile. Pentru a facilita o nvare eficient, fiecare categorie este
tratat ca o problem separat de clasificare binar. Fiecare astfel de problem rspunde la
ntrebarea: "Acest document trebuie plasat n aceast categorie?". Documentele, care de
obicei sunt iruri de caractere, trebuie trecute ntr-o reprezentare ce poate fi utilizat de
algoritmul de nvare i de procesul de clasificare.

1.3. nvarea cu ntrire

Exist multe probleme nerezolvate pe care computerul le poate rezolva cu ajutorul programelor.
nvarea cu ntrire este o apropiere de maina inteligent care
combin cu success dou discipline ce rezolv probleme pe care alte discipline nu le
pot rezolva individual. Programarea dinamic este un cmp al matematicii care este
folosit pentru a rezolva probleme de optimizare i control. Programarea dinamic
tradiional este limitat ca mrime i complexitate nvarea supervizat este o
metod general pentru un aproximator de funcie parametrizat, ca reelele neurale,
pentru a reprezenta funcii. Cu toate acestea, nvarea supervizat are nevoie de
perechi intrare-iesire ale funciei de nvare. Adic, nvatarea supervizat necesit
un set de ntrebri cu rspunsurile corecte.

2. Aplicabiliti ale text mining-ului

Machine Learning reprezint studiul algoritmilor care se mbuntesc pe baza experienei.


Experiena este asociat cu nsumarea cunotinelor dobndite prin intermediul diverselor
resurse. Datorit faptului c majoritatea cunotinelor se afl stocate sub forma datelor sau sub
form textual, pentru ca acestea s poat fi descoperite i utlizate sunt necesare metode de
explorare a datelor i a textului, respective text mining i data mining.

8 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

Data mining-ul a aprut ca o continuare a metodelor tradiionale de analiz a depozitelor de


date (pe volume mari). Datorit costurilor de implementare ridicate a aprut necesitatea
identificrii unor soluii de extragere a esenialului dintr-un volum foarte mare de date, la costuri
mult mai reduse, soluii cunoscute astzi sub denumirea de data mining. Odat cu expansiunea
Intemet-ului i a informaiei de tip text n format electronic, a aprut necesitatea extragerii
automate de cunotine i din text, i astfel data mining-ul a cunoscut o nou specializare: text
mining-ul. Spre deosebire de data mining, text mining-ul presupune un software care se
adreseaz publicului larg consumator de servicii n reea, motivele pentru aceasta fiind
universalitatea cererii de achiziionare de informaie n timp real i costurile mici (preul
conexiunii) de achiziionare a informaiei, comparativ cu data mining-ul. Text mining-ul are drept
obiectiv principal extragerea automat de cunotine, ce trebuie s ndeplineasc la rndul lor
cerinele de: noutate, validitate, operaionalitate. Text mining este foarte relevant astzi n
special datorit afluxului mare de cunotine existente n documentele de tip text, din cadrul sau
din afara unei organizaii. n organizaiile care se bazeaz pe informaiile textuale, lucrul cu un
amont mare de text devine foarte dificil. ntreaga colecie de text este prea mare pentru a putea
fi citit i analizat uor. Mai mult de att, se modific in mod constant i necesit revizuire i
analiz pentru a fi actualizat. Text mining-ul are n vedere aceste probleme, oferind diverse
instrumente pentru a analiza i a nva din cadrul acestor informaii dinamice.

Elemente ce trebuie avute n vedere la selectarea unei soluii text mining

Datorit evoluiei accelerate n domeniul text-miningului, utilizatorii trebuie s se ghideze dup


urmtoarele reguli cnd doresc s selecteze una dintre metodele de text mining.

S nu solicite categorizarea manual, tagging-ul sau construirea unor tezaure

Text mining-ul transmite identificarea automat i indexarea conceptelor din cadrul textelor,
prezint o imagine la nivel nalt a scopului ntregului text, cu abilitatea de a "fora" pentru
obinerea detaliilor relevante.

Tehnicile de text-mining permit utilizatorilor s fac noi asocieri i relaii, ducnd la noi ci
pentru inovare i explorare.

9 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

Aplicaiile de text mining se pot clasifica n aplicaii online i aplicatii offline. n prezent, cele mai
cunoscute aplicaii de text mining sunt:

a) Aplicaii online pentru:

- cutarea inteligent pe Internet, care presupune analiza de coninut (cu ajutorul tehnicilor de
text mining documentele regsite de un motor de cutare sunt filtrate, fiind pstrate doar
rezultatele cu sensul cautat), dezvoltarea unui profil al utilizatorului (documentele sunt aduse
automat fr o solicitare expres din partea utilizatorului, plecnd de la un profil al preferinelor
conform crora programul caut independent documente relevante).

- regsirea tirilor interesante: selectarea de tiri de pe Usenet este o provocare care apare n
viaa de zi cu zi a multor utilizatori de Internet.

- regsirea de rspunsuri la ntrebri: exist ntrebri frecvente la care altcineva poate rspunde
sau a rspuns deja. Acestea se numesc frequently asked questions i se gsesc mpreun cu
rspunsurile lor n baze de date.

- filtrarea potei: partiionarea mulimii scrisorilor electronice n grade de prioritate n funcie de


reaciile anterioare ale utilizatorului i emiterea de recomandri de tergere a unor mesaje
pasibile de a fi comerciale sau neinteresante.

b) Aplicatii offline pentru:

- clasificarea documentelor preluate de pe Internet.

- rezumarea documentelor (obinnd astfel documente condensate i rezumate, abstracturi ale


lucrrilor depozitate)

10 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

- concatenarea documentelor (de exemplu crearea de relatri ale unor stiri pe baza informaiilor
preluate din mai multe surse)

Aplicaiile menionate nu respect ntru totul obiectivul de extragere a cunotinelor, aceste


sisteme realiznd cel mult extragere de informaii. Extragerea cunotinelor reclam mai mult de
la metodele de text mining i anume nelegerea, mcar aproximativ, a documentelor i
crearea unui sistem de generare ntr-o forma inteligibil de cunotine noi. n prezent,
interpretarea rezultatelor este realizat n continuare de utilizator pe un numr ns mai mic de
informaii mai exacte.[1]

Aplicaiile sunt folosite pentru anumite funcii sau procese. Pot fi dependente sau independente
de domeniu . Soluiile de tipul explorrii datelor ndeplinescu cerine multiple din cadrul
domeniilor de aplicabilitate. Ramurile n care se poate aplica explorarea datelor sunt:
- Descoperirea substanelor chimice, a medicamentelor, a simptomelor

Sursele de informaii includ literatur tiinific i medical, reetele de tratament, bazele de date
de compui chimici, medicamente i simptome medicale. Are rolul de a observa relaiile ntre
entitile biomedicale i chimice i indicatorii genetici, de exemplu proteine i gene-secvene de
baz-simptom, tipare de genul A activeaz B sau A se asociaz cu B. Este necesar
determinarea relaiilor i asociaiilor temporare.
- Managementul ngrijirii sntii

Sursele includ baze de date cu cercetri clinice, nregistrri ale pacienilor.


- Inteligen i contra terorism

Au la baz tiri i anchete de investigare, interceptri ale comunicaiilor, i documente n


diverse limbi. Scopurile sunt reprezentate de reelele i asociaiile organizaionale, tipare
comportament-atac,observarea ameninrilor, prezicerea evenimentelor.

11 / 12

Tehnici de explorare a textului in cadrul sistemelor de invatare


Scris de Mihaiela
Mari, 08 Martie 2011 13:46 - Ultima actualizare Luni, 21 Martie 2011 22:35

Domeniile de afaceri, academice i guvernamentale vor fi printre primele care vor beneficia de
instrumente sofisticate de detectare a cunotinelor, cum este explorarea textului. Explorarea
textului poate juca un rol important n cadrul multor funcii referitoare la mediul de afaceri. Lista
include Managementul Relaiilor cu Clienii, unde sursele sunt reprezentate de e-mail-uri i
scrisori, notri i stenograme ale centrului de consultan ct i date din baza de date a
serviciului de management, i are ca scop identificarea problemelor referitoare la calitatea
produselor i serviciilor, pentru a ghida designul i pentru a ncheia numai anumite contracte.

Bibliografie

1. http://www.revistaie.ase.ro/content/23/Flavian.pdf

2. http://portal.acm.org/citation.cfm?id=998547&amp;dl=GUIDE&amp;coll=GUIDE

3. www.TextMiningNews.org - The developing text mining Market

4. Eklund, B. Back, H. Vanharanta.and A. Visa, "Assessing the Feasibility of Self-Organizing


Maps for Data Mining Financial Information"
, in Proceedings of the Xth European Conference on Information Systems (ECIS 2002),
Gdansk, Poland, June 6-8, 2002

12 / 12