Raport Finalizare - Intelpro

1.
Prezentarea rezultatelor proiectului

IntelPro - Sistem Inteligent de Asistarea Deciziei Terapeutice la Pacientii
cu Cancer de Prostata
Categoria de proiect: Modul I, Domeniul 03 P-CD
Coordonator:
UNIVERSITATEA TEHNICA DIN CLUJ-NAPOCA
Director proiect: Prof. dr. ing. Sergiu Nedevschi
Parteneri:
1. Institutul Oncologic PROF. DR. IOAN CHIRICUTA,
Cluj-Napoca,
2. Universitatea de Medicin i Farmacie Iuliu
Haieganu Cluj-Napoca
3. SOLUTIONS OF ARTIFICIAL INTELLIGENCE
APPLICATIONS,
4. S.C. IPA S.A
Numar contract: 18 CEEX/2005
Durata de desfasurare a proiectului: oct. 2005 oct. 2008
1. Obiectivele proiectului: Problematica propus spre rezolvare const n crearea
unui sistem inteligent capabil de:
Predicia evoluiei la pacienii cu cancer de prostat, tratai prin
prostatectomie radical, prin ncadrarea n dou grupe cu prognostic diferit,
n funcie de nivelurile PSA (sub i respectiv peste 0,3 ng/ml) postterapeutice, estimate de ctre sistemul inteligent.
Extragerea de reguli din bazele de date, create n acest proiect, care s
exprime, ntr-un limbaj inteligibil de ctre experii medicali umani,
modalitatea de delimitare a celor dou grupuri de pacieni prin valorile cutoff
ale parametrilor clinici i paraclinici analizai.
Acesta va permite adaptarea i individualizarea strategiei terapeutice, n special
chirurgicale, la cele dou grupuri de pacieni avnd drept consecin scderea
mortalitii, morbiditii i a costurilor.
Obiectivele specifice ale proiectului au fost:
-
studiul stadiului actual al domeniului prediciei preoperatorii al stadiului

patologic la pacieni cu cancer de prostat implicand stadiul realizarilor
stiintifice si tehnice existente, sistemele relevante existente, studiul
metodelor bazate pe interpretarea direct a parametrilor, interpretare
statistic, interpretare bazat pe metode din Inteligena Artificial
elaborarea unui set de modele informatice de analiz a parametrilor care
conduc la stabilirea stadiului de evoluie a bolii, de predicie automat a
stadiului pe baza unor metode de clasificare, de management a cunostintelor
in domeniul cancerului de prostata
implementarea componentelor experimentale de achizitie a datelor, stocare a
datelor, clasificare si predictie pe baza modelelor dezvoltate

- implementarea unor instrumente software auxiliare necesare pentru adaptarea
si configurare a componentelor experimentale la necesitatile si particularitatile
concrete ale unor cazuri specifice;
- validarea si testarea componentelor experimentale implementate.
2. Descrierea componentelor sistemului IntelPro:
- Baza de date
Baza de date a sistemului INTELPRO, destinat monitorizrii datelor pacienilor
bolnavi sau suspeci de cancer de prostat, este o baz de date relaional [1],
realizat n mediul Microsoft SQL Server, reprezentat sub forma unei constelaii,
coninnd tabela central Pacieni, pentru memorarea datelor generale ale
bolnavilor, respectiv tabele secundare pentru reprezentarea datelor legate de
urmrirea strii bolnavului, analizele medicale ale bolnavului, respectiv despre
eventualele intervenii chirurgicale.
Un fragment al structurii bazei de date este prezentat in figura urmatoare:
- Modul de gestiune al datelor

Sistemul software realizat este destinat monitorizrii n detaliu a datelor pacienilor
bolnavi de cancer de prostat. Utilizatorul sistemului va fi medicul, care va avea
posibilitatea s introduc date, s vizualizeze datele i s modifice valorile datelor
existente. Aplicaia const din urmtoarele seciuni, care corespund principalelor
funcionaliti:
Seciunea pentru manipularea datelor generale ale bolnavului
Seciunea pentru urmrirea strii bolnavului
Seciunea pentru datele legate de analizele bolnavului
Seciunea pentru specificarea detaliilor legate de interveniile
chirurgicale
- Modul data mining
Cercetari recente in domeniul metodelor clinice si biologice de diagnostic au condus

la o mai buna intelegere a posibilei evolutii si a consecintelor acestei boli. Cu toate
acestea, acuratetea diagnosticului si a prognosticului este in multe cazuri redusa,
din cauza influentei negative a unor factori ca: experienta specialistului, intuitia si
subiectivitatea, sau volumul mare de date ce trebuiesc analizate. In acest context,
tehnicile machine learning pot fi folosite pentru a deduce reguli de diagnostic
automat, din descrierile pacientilor tratati cu succes in trecut. Aceste date sunt
inregistrate in arhivele spitalelor, si pot fi facute disponibile relativ usor tehnicilor de
invatare. Astfel, folosind modelele derivate, specialistii primesc suport in procesul
de diagnostic, acesta devenind mai rapid, obiectiv si mai eficient.
Datele medicale poseda o serie de particularitati care fac ca procesul de data
mining sa fie mai complex si mai interesant pentru aceste probleme. Natura
complexa a datelor (eterogene, ierarhice, serii de timp, etc.), calitatea (date
incomplete, zgomot, redundanta) si cantitatea lor, precum si incorporarea
cunostintelor de domeniu si aspectele etice si sociale sunt doar cateva din
caracteristicile importante. Transparenta si acuratetea procesului de decizie sunt
doua cerinte esentiale in data mining-ul medical, intrucat acestea asigura eficienta
si interactiunea cu specialistul medical. Probabil cea mai importanta particularitate a
problemor medicale este conceptul de cost, atat prin prisma faptului ca acesta
capteaza ceea ce se intampla in realitate in procesul de diagnostic, cat si a
necesitatii dezvoltarii de tehnici machine learning speciale, de invatare sensibila la
costuri (cost-sensitive learning).
Modelul data mining propus incorporeaza particularitatile problemelor medicale,
concentrandu-se in special pe invatarea sensibila la cost si pastrarea acuratetii si a
transparentei procesului de decizie. Pentru tratarea particularitatilor legate de date
s-a folosit preprocesarea manuala, asistata de echipa medicala.
- Modul de clasificare sensibila la cost ProICET
Modulul principal de clasificare dezvoltat (ProICET) se concentreaza pe invatarea
sensibila la costuri, implementand o metoda robusta, care asigura atat reducerea
costului total, cat si pastrarea unui nivel ridicat al acuratetii. Considerarea costului
in procesul de invatare este esentiala din doua motive:
Diferitele erori de clasificare au impact diferit asupra vietii umane (eroarea de
a clasifica un pacient ca fiind sanatos, cand in realitate este bolnav este mult
mai serioasa decat eroarea din situatia opusa); cu toate ca aceste
dezechilibre sunt greu de stabilit (din pricina faptului ca nu se poate pune un
pret pe viata umana), acestea trebuiesc considerate in procesul de invatare;
costurile de eroare (misclassification costs) capteaza aceste aspecte.
Testele medicale sunt costisitoare, atat din punct de vedere economic, cat si
din punctul de vedere al impactului pe care il au asupra confortului fizic si
psihic al pacientului, a timpului de colectare a rezultatelor, s.a.m.d. Acestea
sunt relativ mai usor de cuantificat, fiind inglobate in costurile de test (test
costs)
Procesul de invatare trebuie sa stabileasca un echilibru intre aceste costuri. In
realitate, efectuarea tuturor testelor medicale nu este o solutie fezabila. Astfel, doar
un subset de teste relevante trebuie selectat. Cand costul unui test nou depaseste
penalizarea pentru eroare, efectuarea de teste noi nu se justifica.
Modulul ProICET se concentreaza pe reducerea costului total, considerand ambele

tipuri de costuri. Avantajul net al metodei in fata altor clasificatori sensibili la cost
este faptul ca ia in considerare ambele tipuri de costuri, spre deosebire de alte
metode cunoscute, care se concentreaza fie doar pe costurile de eroare (AdaCost,
MetaCost, stratificarea), fie doar pe cele de test (Eg3, CS-ID3, IDX).
Avand o abordare hibrida, prin combinarea cautarii euristice greedy (arbori de
decizie) cu metode evolutionare, se introduce un element nou, care mareste
variabilitatea cautarii in spatiul arborilor de decizie.
Modelul rezultat are capacitatea de a reduce costurile totale, oferind in acelasi timp
o acuratete ridicata. Intrucat modelul invatat este un arbore de decizie, se asigura
si transparenta procesului de diagnostic, arborii de decizie fiind cunoscuti pentru
reprezentarea compacta si usor de inteles pe care o ofera.
- Modul de imbunatatire a performantelor clasificatorilor simbolici prin
preprocesare cu ansamblu de retele neuronale bazat pe metoda PANE
Cu toate ca modulul ProICET a fost validat ca fiind robust si de incredere in oferirea
unei solutii potrivite pentru domeniul medical (atat pe date medicale benchmark,
cat si pe date reale provenind de la pacienti suferind de cancer de prostata),
enuntul teoremei No Free Lunch ne obliga sa consideram mai multe abordari, si in
urma evaluarii pe o anumita problema sa o alegem pe cea mai potrivita.
Astfel, s-au abordat si alte tehnici robuste, cunoscute in literatura pentru calitatile
lor de a oferi o acuratete ridicata (PANE, SVM si metode ensemble) si o
transparenta ridicata (PANE).
Modulul PANE a fost implementat cu scopul de a imbunatati acuratetea
clasificatorilor simbolici, pastrandu-le transparenta. Astfel, un ansamblu de retele
neuronale este folosit ca si pas de pre-procesare pentru clasificatorul simbolic (in
implementarea curenta s-a folosit C4.5).
- Modul de evaluare a setului de date si de stabilire a preciziei minimale
pentru setul de date bazat pe teoria matematica a gradului de incredere
(belief) si a combinarii probelor (evidence) a lui Dempster si a lui
Shafer (DST)
Astfel, avand la dispozitie un set de date brute, primul pas se concentreaza pe
evaluarea acuratetii minimale (assess baseline accuracy), folosind modulul DST.
Necesitatea acestui pas este data de teorema No Free Lunch, care evidentiaza
superioritatea selectiva a clasificatorilor: nu exista un clasificator care sa fie
universal bun. Succesul unei metode pe un anumit set de date este legat de
potrivirea biasului metodei cu distributia reala (probabilitatea posterioara reala).
Modulul DST combina predictiile a trei clasificatori diferiti (kNN, Naive Bayes si
C4.5), folosind principiile teoriei matematice a lui Dempster si Shafer, functii de
incredere si rationarea plauzibila. Astfel, se realizeaza o stabilitate crescuta si
posibilitatea obtinerii unei estimari de incredere a acuratetii minimale a setului de
date, obtinandu-se un mecanism de selectie a celor mai potrivite tehnici pentru o
problema data.
- Modul de analiza imagistica tumorala, respectiv de diagnoza automata si
semiautomata pe baza modelului imagistic tumoral si al metodelor de
clasificare
Obiectivele modulului sunt: elaborarea unor metode si instrumente adecvate

diagnozei automate si semi-automate a cancerului prostatic (ADKP), detectia
tumorii maligne prostatice (ADKP) prin metode non-invazive => biopsia virtuala,
determinarea, prin intermediul texturii, a unor caracteristici ale ADKP greu de
sesizat cu ochiul liber, localizarea ADKP in interiorul prostatei si determinarea
limitelor de expansiune tumorala
Realizarile acestui modul se refera la:
determinarea valorilor unui set exhaustiv de parametri texturali
elaborarea modelului imagistic textural al ADKP constand in:
o setul exhaustiv si neredondant al trasaturilor texturale relevante in
caracterizarea ADKP
o valorile specifice asociate trasaturilor texturale: media, deviatia standard,
distributia de probabilitate
clasificare (diagnoza automata): separarea tesutului ADKP de alte tipuri de
tesuturi
localizarea ADKP in cadrul prostatei
Experimente si rezultatele obtinute:
Experimentarea metodelor de analiza a texturii
Transformarile de energie ale lui Laws: detectia microstructurilor texturale
Figura 1. Detectia microstructurinlor de tip pata in interiorul ADKP si in afara ADKP,

in interiorul prostatei
Modelarea densitatii de probabilitate prin mixturi de distributii gaussiene:
separarea trasaturilor bimodale(relevante) de cele uni-modale [1], [2]
Figura 2. Omogenitatea GLCM trasatura bi-modala

Trasaturile relevante in caracterizarea ADKP sunt:
indexul de autocorelatie si corelatia GLCM intotdeauna importante pentru
separarea intre clase
energia GLCM, entropia GLCM denota o crestere a gradului de dezordine in
structura nivelurilor de gri in cazul ADKP
entropiile wavelet denota cresterea gradului de dezordine la rezolutii multiple
statisticile bazate pe trasaturil locale, frecventa microstructurilor texturale - mai
mari in cazul ADKP decat pentru celelalte clase de tesut, indicand complexitatea
tesutului tumoral.
- Modul generic bazat pe sisteme expert
Arhitectura sistemului, permite generarea unei instante de sistem expert prin
selectarea domeniului, a datelor si a nucleului de sistem expert. O instanta de
sistem expert este compusa dintr-un modul de nucleu de sistem expert, un modul
de cunostinte si un modul de date.
Modulul de nucleu de sistem reprezinta principala parte a sistemului expert,
responsabila de procesele de gandire. Nucleul trebuie sa furnizeze mijloace de
lucru cu toate cunostintele disponibile sub forma faptelor si a regulilor. Totodata,
nucleul trebuie sa permita inferente care sa ia si incertitudinea in considerare.
Modulul de cunostinte este responsabil de managementul bazei de
cunostinte. Acest modul defineste, achizitioneaza si stocheaza cunostintele de
domeniu sub forma unei ontologii de domeniu si a unor reguli associate. Regulile
sunt reprezentate generic, astfel ca ele pot fi translatate in formatul necesar unor
nucleuri de sisteme expert diferite. Astfel, modulul de cunostinte contine si
translatoare de cunostinte care convertesc cunostintele generice in cunostinte
specific.
Modulul de date stocheaza datele primare (disponibile in baze de date
specifice domeniului) care vor fi convertite in fapte prin utilizarea cunostintelor de
domeniu. Cand datele primare sunt selectate pentru o anumita instant de sistem
expert, acestea sunt colectate intr-un repository de date si sunt mapate pe
cunostintele de domeniu asociate, generand astfel fapte specifice domeniului.
- Modul de clasificare bazat pe retele neuronale si arbori decizionali
Acest modul este bazat pe retele neuronale de tip perceptron multi-strat, avind
functii liniare in stratul de output si sigmoidale in straturile ascunse. Acestea se
constituite intr-un ansamblu, utilizind boosting, predictia evolutiei post-terapeutice
realizindu-se prin vot. De asemenea, se utilizeaza arbori decizionali de tip C5,
ultima varianta a algoritmului C4.5, decizia fiind luata tot prin vot, utilizindu-se
boosting ca metoda de grup. Performantele prognostice ale acestora pot atinge
100%.
- Modul bazat pe maini cu vectori suport pentru clasificarea i predicia
parametrilor medicali privind cancerul de prostat
Aplicatia bazata pe masini cu vectori suport permite includerea pacienilor
diagnosticati cu cancer de prostati in clase de risc, in urma efectuarii
prostatectomiei radicale. Masinile cu vectori suport (SVM = Support Vector
Machines) sunt clasificatori autoinstruibili, in care invatarea se bazeaza pe principiul
minimizarii riscului structural. Nivelul PSA postoperator da eticheta fiecarei clase:
mic, mediu, respectiv mare. Aplicatia utilizeaza o implementare a SVM in
C++, denumita SVMLight care contine doua module: svm_learn si svm_classify.
Aplicatia utilizeaza datele din baza de date INTELPRO pentru crearea fisierelor de
antrenare, a fisierelor model si a fisierelor de test pentru SVM, si permite
clasificarea si gestiunea exemplelor noi.
3. Domenii de aplicare si perspective:
Prin implementarea sa acest sistem informatic permite:
-
achizitia datelor referitoare la pacientii bolnavi de cancer de prostata si

stocarea acestora
analiza datelor utilizand o gama variata de tehnici si metode
implementate in diferitele componente ale sistemului
clasificarea datelor si predictia evolutiei pe baza analizei datelor, ceea ce
permite individualizarea strategiei terapeutice.
Prin realizarea sa modulara sistemul este flexibil si poate fi adaptat cu usurinta

pentru a aplica tehnicile relevante pentru problema specifica. Prin dezvoltarea
ulterioara a setului de date existent, performanta actuala a unor module se poate
imbunatati substantial.

Raport Finalizare - Intelpro

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Raport Finalizare - Intelpro

Încărcat de

Drepturi de autor:

Formate disponibile

1.

Prezentarea rezultatelor proiectului

studiul stadiului actual al domeniului prediciei preoperatorii al stadiului

datelor, clasificare si predictie pe baza modelelor dezvoltate

- Modul de gestiune al datelor

Cercetari recente in domeniul metodelor clinice si biologice de diagnostic au condus

Modulul ProICET se concentreaza pe reducerea costului total, considerand ambele

Obiectivele modulului sunt: elaborarea unor metode si instrumente adecvate

Figura 1. Detectia microstructurinlor de tip pata in interiorul ADKP si in afara ADKP,

Figura 2. Omogenitatea GLCM trasatura bi-modala

achizitia datelor referitoare la pacientii bolnavi de cancer de prostata si

Prin realizarea sa modulara sistemul este flexibil si poate fi adaptat cu usurinta

S-ar putea să vă placă și