Sunteți pe pagina 1din 25

Universitatea POLITEHNICA din Bucureşti

FACULTATEA DE INGINERIE MEDICALĂ

PREDICTIA APARIȚIEI SEPTICEMIEI DIN DATE


CLINICE

Studenți: Rizea Raluca-Ioana, Olteanu Georgiana, Harmon Filip


Conducător Științific: Ș.l. Dr. Ing. Dragoș-Daniel Țarălungă
Grupa: 1446

București
Ianuarie 2022
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

I. Introducere

Septicemia și sindroamele adiacente acesteia se numără printre principalele cauze de morbiditate și mortalitate la
nivel mondial, totodată solicitând enorm sistemele de sănătate din punct de vedere financiar. [7]
In sensul definirii septicemiei, in lumea medicala exista la momentul actual multiple interpretari ale acestei conditii
patologice; cea mai recenta a fost formulata in 2016, cu ocazia celui de-al Treilea Consens International (Sepsis-3), si
descrie septicemia ca fiind „o afecțiune care pune viața în pericol ce apare atunci când răspunsul imunologic al
organismului la un agent infecțios incepe sa atace propriile țesuturi” [8]; definitiile din literatura de specialitate sunt
totuși incomplete, întrucât încă lipsesc directii clare privind un protocol de diagnosticare a sepsisului. Acest fapt
îngrijorător plasează această afecțiune pe una din pozițiile fruntașe când vine vorba de cercetare și dezvoltare de
tehnologii care să aducă răspunsurile atât de necesare. [2]
Stadializarea tradițională, bazată pe criteriile SIRS (Systematic Inflammatory Response Syndrome, metodologie de
diagnostic stabilită în anul 1991) consideră că septicemia se clasifică în funcție de trei stadii: (1) stadiul incipient, (2)
stadiul intermediar (septicemie severă) și, în cele din urmă, (3) stadiul cel mai avansat, numit șoc septic. Detaliata in linii
mari, noua definitie Sepsis-3 elimină clasificarea tradițională, utilizând în schimb un sistem de identificare pe două
niveluri, ce cuantifica gradul de severitate a acestei patologii.
De asemenea, s-a demonstrat faptul că sepsisul prezintă factori de risc precum vârsta înaintată, bolile cronice și
intervențiile chirurgicale recente. În cazul celor ce dezvoltă acest sindrom, timpul de diagnosticare este cel mai
important aspect. Administrarea rapidă a unui tratament corespunzător și monitorizarea pacientului cresc șansele acestuia
de supraviețuire considerabil.

Fig.1.1. Incidența globală a sepsisului standardizată în funcție de vârstă la 100 000 de locuitori, pentru ambele sexe, în funcție de cauzele
declanșatoare, în perioada 1990–2017 [5]
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Cauze. Statistici. Incidențe regionale

Cele mai frecvente etiologii ale septicemiei sunt infecțiile pulmonare sau abdominale (apendicită, diaree infectioasa),
dar sepsisul poate rezulta, de asemenea, dintr-o gripă, o leziune a pielii sau de la un cateter montat [3]. Surse indirecte de
sepsis sunt considerate cele ce afectează performanțele imunității, cum ar fi meningita, intervențiile chirurgicale urmate
de un tratament post-operator antibacterian necorespunzator, arsurile de grad cel putin II, ori chiar prezența de la naștere
a unor culturi bacteriene în sânge, cum ar fi Group B streptococcus sau chiar Escherichia coli. [4]
Povara globală a sepsisului este greu de stabilit, deși o publicație științifică recentă a estimat că în 2017 au existat
48,9 milioane de cazuri și 11 milioane de decese legate de sepsis la nivel mondial, ceea ce a reprezentat aproape 20% din
toate decesele globale. Aproape jumătate din toate cazurile de sepsis la nivel mondial au avut loc în rândul copiilor, cu
aproximativ 20 de milioane de cazuri și 2,9 milioane de decese la nivel global la copii sub cinci ani. [5]

Fig.1.2. Procentul tuturor deceselor cauzate de sepsis în fiecare categorie de cauze declansatoare, pe grupe de vârstă, în 2017 [5]

Există diferențe regionale semnificative în incidența și mortalitatea sepsisului; aproximativ 85,0% din cazurile de
sepsis și decesele legate de sepsis la nivel mondial au avut loc în țări cu venituri mici și medii, care nu au acces la
resursele medicale necesare prevenirii, diagnosticării, ori chiar tratării infecțiilor declanșatoare de sepsis.

Fig.1.3. Variația incidenței globale a sepsisului și a morților cauzate de sepsis în funcție de localizare, pentru toate vârstele și ambele sexe,
în perioada 1990-2017 [5]
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Sindromul post-septic

Sindromul post-septic, devenit recent o entitate patologica de sine statatoare ce se instaleaza la peste jumatate dintre
supravietuitorii septicemiei, include tulburari neurocognitive, dizabilitati functionale, deficiente psihologice, toate acestea
pe langa un risc crescut de deces si o calitate considerabil redusa a vietii.
Multiple studii au descoperit ca supravietuirea septicemiei este asociata cu efecte de durata asupra sanatatii mintale.
Leziunea cerebrovasculară și neuroinflamația rezultate in umra sepsisului pot fi procesele responsabile, explicând
sechelele psihologice și modul în care acestea afectează pacientii.
Sechelele pot apărea și la nivel fizic, prin disfunctii respiratorii, musculare sau articulare. [6]

Sisteme de evaluare si diagnosticare clinica a sepsisului

În prezent, nu există un “standard de aur” pentru diagnosticul sepsisului - acesta este observat predominant pe baza
unei combinații de teste de laborator și caracteristici clinic, abordare ce se dovedeste a fi ineficienta din punctul de vedere
al timpului de interventie, si implicit, si din punctul de vedere al salvarii pacientului - cateva statistici au aratat ca
fiecare ora de intarziere in administrarea tratamentului antiseptic scade sansele de supravietuire ale pacientului
cu 7,6% [9][10].
Predicția timpurie a sepsisului rămâne o provocare, în special în unitățile de terapie intensivă, deoarece sepsisul
prezintă simptome similare cu cele ale unor afecțiuni mai puțin critice [11]. In ideea de a facilita identificarea sepsis-ului,
mai multe sisteme de notare si evaluare a simptomelor clinice au fost create: unul dintre cele mai populare a inclus
criteriile definite de SIRS (Systemic Inflammatory Response Syndrome); altul, numit SOFA (Sequential Organ Failure
Assessment), s-a bazat pe un sistem de evaluare a insuficienței de organ care include 7 criterii pentru 6 sisteme anatomo-
fiziologice [12]; de mentionat sunt si metodele LODS (Logistic Organ Dysfunction System - un scor de evaluare a
insuficienței de organ, luând în considerare 6 sisteme de organe, care este mai complex și mai puțin cunoscut decât
SOFA [11]) si MEWS (Modified Early Warning Score - un scor simplificat de evaluare care ar trebui să indice când un
pacient intră într-o stare fiziologica critică).
Desi toate aceste metode folosesc diferite semne vitale și rezultate de laborator pentru a genera scoruri de risc septic
cu un grad de sensibilitate ridicat, ele ofera o specificitate suboptima, consuma resurse spitalicesti multiple si nu reușesc
să analizeze tendințele datelor pacientului sau corelația dintre măsurători, nefiind concepute pentru a prezice din timp
instalarea septicemiei [11] [13].
Luand in considerare aspectele definitorii si etiologice ce caracterizeaza septicemia si punandu-le totodata in
contextul statistic prezentat anterior, devine imperios necesara combaterea acestei patologii. In capitolul urmator,
multiple metode si solutii in acest sens vor fi discutate.

II. Stadiul actual al cunoașterii

Implementarea pe scară largă sistemelor digitale de evidență medicală (Electronic Health Recordings - EHR)
în spitale a făcut ca sistemele automate de decizie și predicție clinice să fie mai fezabile, imbunatatind calitatea su-
pravegherii și a administrarii tratamentelor pentru pacientii in stare critica, ce prezinta nevoia constanta de monitorizare.
[13] În ciuda acestui progres, interoperabilitatea sistemelor digitale rămâne o problemă deschisă, ceea ce duce la
provocări în integrarea datelor.
În sinea sa, ca și concept profilactic, predicția instalării septicemiei presupune monitorizarea simultană a mai
multor parametri de diverse naturi, pentru fiecare pacient în parte, reactualizați odată la câteva ore: fiziologici (frecvența
respiratorie, ritmul cardiac, nivelul de staurație din sânge etc.), biochimici ( ), precum și demografici (vârsta, sexul,
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

etc). Acest lucru impune ca sistemele automate de predicție să fie extrem de dezvoltate pentru a putea lucra cu cantități
enorme de date.
Tocmai pe fondul acestei necesități de a integra algoritmi foarte performanți, precum și a “revolutiei” tehnolog-
ice din mediile spitalicesti, in ultimii ani, in ceea ce priveste diagnosticarea din timp a septicemiei, TOATA atenția
lumii științifice a putut fi acordata abordarilor automate de predictie; majoritatea dintre acestea au în comun următorul
principiu de funcționare general: aplică asupra datelor clinice prelevate de la pacienți tehnici de machine learning cu
scopul de a alerta personalul medical care este grupul cu risc foarte ridicat de septicemie, cu până la o zi înaintea
instalării simptomelor clinice [14].

Tehnicile de machine learning pot gestiona cu mare ușurință diversitatea și complexitatea datelor digitale ale
pacientilor prin învățarea tiparelor de date, precum și a conexiunilor stabilite între acestea, utilizându-le pentru a face
predicții precise despre pacientul care dezvoltă sepsis. Căutarea tiparelor predictive se face în mod convențional fie în
mod supravegheat, fie nesupravegheat.
Învățarea supravegheată se referă la algoritmi care învață din datele de antrenament etichetate (de exemplu,
pacienții au sau nu sepsis) pentru a prezice rezultatele pentru date neprevăzute. În schimb, în învățarea nesuprave-
gheată, datele nu au etichete, iar algoritmul detectează modele (cunoscute și necunoscute) pe baza datelor furnizate. În
ultimele decenii, mai multe studii au folosit cu succes o varietate de modele computaționale pentru a aborda provocarea
de a prezice sepsisul cât mai devreme posibil. [15]
Un algoritm de screening care identifică pacienții cu risc septic ridicat ar permite atât rate mai mari de diagnos-
ticare precoce a sepsisului, cât și o mai bună utilizare a resurselor clinice adesea limitate (personal, aparatură, medicație
etc). Un astfel de algoritm ar limita monitorizarea atentă la o populație de pacienți mult mai mică, făcându-l extrem de
practic în medii precum sectiile de urgenta din spitale. [9]
In continuare, am selectat cateva abordari din literatura de specialitate pentru a crea o reprezentare a stadiului
actual al cunoasterii din domeniul algoritmilor de predictie a septicemiei și pentru a oferi un context mai cuprinzător în
care algoritmul implementat de noi poate fi plasat:

a. Clinical decision support system to assess the risk of sepsis using Tree Augmented Bayesian
networks and electronic medical record data, Gupta et al., 2019 [16]

Principiul pe care se bazează


În acest studiu, autorii au dezvoltat un model predictiv folosind ca tehnica de machine learning rețeaua TAN
Bayesian, care surprinde interacțiunile importante dintre biomarkeri; performanța acestui model surclaseaza sistemele
conventionale de notare (SIRS, MEWS și SOFA). Principiul de functionare a modelului dezvoltat include următorii
pași principali:
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

- extragerea datelor,
- preprocesarea datelor,
- compilarea rețelei TAN Bayesian și
- evaluarea modelului.
Procedeul de selectie a variabilelor analizate se
bazeaza pe identificarea biomarkerilor semnificativi
predictiei instalarii sepsisului. Dintr-un set de 13 vari-
abile, au fost selectate cinci variabile (SBP – tensiunea
arterială sistolică, GCS- scala Glasgow de evaluare a
stării comatoase, RR -rata respiratorie, WBC -numarul
de leucocite și Creat- nivelul de creatinina) in scopul
dezvoltarii modelului TAN.
Structura retelei TAN faciliteaza interpretarea
vizuala a interactiunilor dintre biomarkeri, modelul
identificand corelatii intre acestia conform practicii
clinice curente
Figura II.1 – Structura metodei de învățare automată TAN Bayesian

Performanțele obținute și evaluarea acestora


Valorile pentru a evalua performanța de clasificare a algoritmului sunt AUROC, sensibilitatea, specificitatea și
media geometrică (media G). AUROC este cel mai frecvent utilizat în literatura medicală pentru a evalua capacitatea
de diagnosticare (discriminare) a unui clasificator, deoarece pragul său discriminativ este variat. AUROC de 1
corespunde unui model ideal, în timp ce 0,5 corespunde cazului cel mai puțin dorit. Sensibilitatea este rata pozitivă
adevărată, iar specificitatea este rata negativă adevărată. G-mean este media geometrică a sensibilității și specificității:

Prin analize comparative intre specificitatea si sensibilitatea algoritmului, abordarea propusa de Gupta et al.
demonstreaza valori echilibrate (sensibilitate 71% specificitate 80%), spre deosebire de cele ale sistemelor convention-
ale de notare (pentru SIRS sensibilitate 83%, specificitate 36%; pentru quickSOFA sensibilitate 36%, specificitate
95%). De asemenea, abordarea propusa de Gupta et al. se foloseste de mai putine variabile decat MEWS sau SOFA,
ceea ce conduce la o diagnoza mai rapida a septicemiei, fiind in acelasi timp usor de integrat in sistemele HER. În
figura de mai jos, se pot observa performanțele obținute.
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Figura II.2. – (stânga) Analiză comparativă a biomarkerilor


utilizați, precum și a performanței fiecărui model de predicție;
(dreapta) Analiză comparativă a AUROC corespunzător fiecărui
model de predicție

Limitarile acestui studiu constau in faptul ca al-


goritmul a fost testat numai pe date prelevate de la spitale
ce folosesc sistemul Cerners EHR; asadar, exista poten-
tiale erori ce ar interveni pentru date obtinute de la alte
sisteme electronice medicale.

Baza de date pe care a fost implementată soluția propusă


Acest algoriim a utilizat date achiziționate din baza de date Cerner Corporations HIPAA-compliant Health
Facts, una dintre cele mai mari baze de date medicale din US, având în evidență un total de 379 milioane de vizite ale
pacienților în spitalele din toată țara. Grupul de interes din această bază de date, ce prezentau risc de infecții, a fost
extras prin aplicarea definiției Sepsis-3.
Această bază de date are accesul restricționat, necesitând aprobări guvernamentale pentru a obține permisiunea
de prelucrare a datelor.
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

b. Development and Validation of an Automated Sepsis Risk Assessment System, Back et al.,
2016 [17]

Principiul pe care se bazează


In studiul lui Back et al. a fost dezvoltat un algoritm, numit Auto-SepRAS (Automated Sepsis Risk Assessment
System), ce evalueaza riscul septic prin actualizarea zilnica a unui numar de șapte variabile extrase automat din dosarele
electronice medicale ale pacientilor. Acesti predictori inclusi in analiza Auto-SepRAS au fost: tensiune arteriala dias-
tolica, frecvența respiratorie, ritmul cardiac, varsta pacientului, durata internarii acestuia, internarea acestuia prin ser-
viciul de urgență, precum si categoria de risc septic din care face parte (calculata pe baza primilor 6 parametri). Algo-
ritmul de evaluare a riscului de sepsis a fost construit pe baza unui model de regresie logistică prin selectarea factorilor
de risc care au prezentat cea mai mare performanță predictivă dintre cele 4.200 de variabile, folosind două etape: pasul
1: Selectarea variabilelor ; pasul 2: Modelarea regresiei logistice. Algoritmul de evaluare a riscului bazat pe probabili-
tate a fost dedus din variabilele finale selectate prin regresie logistică. Pentru analiză, înregistrările pacienților au fost
împărțite într-un set de antrenament cu 1414 participanți (70%) și un set de testare cu 606 participanți (30%) pentru a
evita problema supraajustării datelor. Modelul de regresie logistică a fost construit cu datele de antrenament, iar valid-
itatea predictivă a fost măsurată cu datele de testare.

Performanțele obținute și evaluarea acestora


Pentru evaluarea performanțelor obținute, s-au ales drept parametrii de control sensibilitatea, specificitatea,
valoarea preedictivă pozitivă, valoarea predictivă negativă, indexul Youden, precum și parametrului AUROC.
Sensibilitatea, specificitatea, valoarea predictivă pozitivă și valoarea predictivă negativă sunt ideale atunci când
se apropie de 1.0.
Dacă sensibilitatea și valorile predictive negative cresc, atunci specificitatea și valorile predictive pozitive scad.
Dacă sensibilitatea și valorile predictive negative sunt scăzute, atunci pacienții cu sepsis cu risc ridicat pot fi
clasificați în mod eronat drept cu risc scăzut, pierzând accesul la tratament în timp util.
Dacă specificitatea și valorile predictive pozitive sunt scăzute, atunci pacienții cu risc scăzut pot fi clasificați
ca fiind cu risc ridicat, ceea ce duce la o utilizare greșită a timpului și resurselor pacienților și/sau percepția personalului
asupra instrumentelor ca fiind nesigure.
Indicele Youden ( YI = [(sensitivity+specificity)-1] ) este utilizat pe scară largă pentru a măsura eficacitatea
testelor de diagnostic : O valoare de 0 înseamnă că testul este inutil, iar valoarea de 1 indică faptul că testul este perfect
adecvat.
Alături, sunt prezentate rezultatele obținute în urma evaluării performanței algoritmului Auto-SepRAS.
S-a determinat că informații precum durata de internare a pacientului, internarea sa în secția de urgență, precum
și vârsta sunt puternici factori ce facilitează predicția dezvoltării de sepsis
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Figura II.3 – Performanțele algoritmului Auto-SepRAS

Baza de date pe care a fost implementată soluția propusă

Baza de date utilizată pentru acest algoritm a fost una proprie, cu date achiziționate din dosarele medicale
electronice ale Spitalului Univeristar din Seoul, Coreea de Sud.
Deoarece Auto-SepRAS utilizează datele disponibile in EHR, fara a necesita teste invazive sau introducerea de
date suplimentare de către asistente, se crede ca acest algoritm poate fi utilizat cu ușurință și în siguranță în cadre clinice.
Aceasta solutie poate aduce o sporire a eficacitatii detecției de sepsis, ajutând asistentele să personalizeze monitorizarea
pacientilor in functie de apartenenta acestora la diferite grupuri de risc.
Limitarile acestei solutii constau in faptul ca diverși factori ar putea modifica în timp caracteristicile pacienților cu
risc septic ridicat, afectând astfel valabilitatea sistemului; asadar, Auto-SepRAS trebuie actualizat continuu pentru a
menține o performanță predictivă ridicată, iar valorile-limită sau variabilele trebuie ajustate în consecință pentru a men-
tine gradul de acuratete a algoritmului. In al doilea rand, deoarece acest algoritm a fost implementat pe sistemul elec-
tronic de indosariere al unui singur spital, poate prezenta erori in incercarea de a fi implementat in cadrul altor tipuri de
sisteme medicale.

c. An Interpretable Machine Learning Model for Accurate Prediction of Sepsis in the ICU,
Nemati et al., 2018 [18] – AISE ALGORITHM

Principiul pe care se bazează


În acest studiu, autorii urmăresc dezvoltarea și validarea unui algoritm de detectare timpurie a sepsis-ului, numit
AISE (Artificial Intelligence Sepsis Expert).
Algoritmul prelucrează datele prelevate de la pacient, realizând un set de 65 de variabile semnificative și aume:
- 10 parametri clinici (fiziologici; de exemplu - tensiunea arterială medie (MAP), frecvența cardiacă (HR),
saturația de oxigen (O2Sat), tensiunea arterială sistolică (SBP), tensiune aarterială diastolică (DBP), tempera-
tura (Temp), scala Glasgow de evaluare a stării comatoase (GCS), etc.)
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

- 25 parametri biochimici (de laborator ; de exemplu: numărul leucocitelor (WBC), nivelul de hemoglobină,
hematocritul, nivelul de creatinina, nivelul de bilirubină, numărul trombocitelor, timpul parțial al protrombinei
(PTT), etc.)
- 19 parametri demografici (de exemplu vârsta, indicele Charleston de comorbiditate, tipul antibioticelor ad-
ministrate în ultimele max. 48h, dacă a fost intubat sau nu, dacă scorul SOFA s-a modificat în ultimele 6 ore
sau nu, etc.)
- alți 11 parametri dinamici de înaltă rezoluție (calculați)
Acest set de 65 variabile a fost furnizat unui model Weilbull-Cox proportional hazards

Performanțele obținute și evaluarea acestora


Parametrii cei mai importanți de evaluare a performanțelor algoritmului de față s-au stabilit a fi: AUROC,
specificitatea și acuratețea ( a se vedea tabelul de pe
pagina următoare).
Rezumatul performanței de predicție a set-
ului de antrenament (linii întrerupte) și a setului de
testare (linii continue) a algoritmului AISE pe baza
de date MIMIC-III este reprezentată alături.

Parametrul AUROC reprezentat în funcție


de fereastra de predicție arată o pantă descrescătoare
(indicând scăderea performanței modelului dupa
mărirea ferestrei de timp). În toate ferestrele, cea
mai bună performanță este atinsă pentru prezicerea
tSOFA, urmată de tSepsis și, în final, tonset. Un acord
strâns între setul de antrenament și performanța set-
ului de testare indică o bună generalizare.

Figura II.1 – Performanța de predicție a algoritmului AISE pentru setul de date MIMIC-III

După primele 4 ore, indicele AUROC, specificitatea și acuratețea au fost maxime în cazul predicției SOFA și
minime în cazul prezicerii apariției sepsis-ului.
În cazul predicției timpului de instalare a sepsis-ului, acuratețea maximă a fost înregistrată pentru valoarea de 4
ore (64%); cea mai slabă acuratețe s-a înregistrat pentru predicția apariției septicemiei cu 12 ore înainte (58%).
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Limitările principale ale acestui sistem sunt reprezentate de:


- scăderea preciziei de predicție în cazul în care fereastra de timp ar fi mai mare de 4 ore;
- posibilitatea obținerii unor rezultate fals-pozitive în cazul existenței unor alte afecțiuni

Baza de date pe care a fost implementată soluția propusă


Algoritmul AISE a fost dezvoltat cu ajutorul a două baze de date:
- Una care cuprinde datele achiziționate de la pacienții internați în secțiile de urgență de la două spitale (Emory
University Hospitals). Această bază de date are acces restricționat
- A doua – baza de date MIMIC-III (disponibilă pe bază de acreditare pe Physionet)

III. Descrierea datelor [19]

Informații generale
Modelele detaliate in capitolul anterior reprezintă doar câteva exemple de soluții automate propuse pentru predicția
septicemiei; literatura specialitate din acest domeniu însă este mult mai vastă de atât; conform
[20], tabelul următor rezumă cele mai populare tehnici de machine learning implementate de studiile de până acum, în
funcție de tipul acestora:

Învățare supravegheată Învățare nesupravegheată


Regresii logistice K-means clusters
Decision Trees Autoencoder
Gradient Boost
Support Vector Machines
Random Forests
Algoritmi de Deep Learning

Deoarece scopul lucrării de față este prezentarea unui model algoritmic de predicție a apariției septicemiei utilizând
tehnici de machine learning, primul pas este acela de a stabili baza de date necesară dezvoltării acestuia.
Dintre toate bazele de date accesibile publicului larg, pentru lucrarea de față a fost aleasă baza de date CinC, lansată
de Physionet în 2019.
PhysioNet/Computing in Cardiology Challenge Database(CinC) este o competiție internațională axată pe soluții
open-source pentru probleme complexe de procesare a semnalelor fiziologice și clasificare medicală. În 2019, cel de-al
XX-lea an al Challenge-ului, participanților le-a fost propus să dezvolte tehnici automate pentru detectarea precoce a
sepsisului din datele clinice. Pentru aceasta, a fost lansată o bază de date, cuprinzând două seturi de date de antrenament:

- training set A: ce conține datele (sub format .csv -comma separated value) - a 20.336 pacienți internați în
secția de ICU a spitalului “A” ( Beth Israel Deaconness Medical Center, USA)
- training set B: ce conține datele datele (sub format .csv -comma separated value) a 20.000 pacienți internați
în secția de ICU a spitalului „B” (Emory University Hospital, USA)
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Aceste date au fost colectate în ultimul deceniu cu aprobarea consiliilor de evaluare instituționale corespunzătoare.
Datele au fost deidentificate și etichetate utilizând criteriile clinice Sepsis-3. Datele și etichetele pentru 40.336 de pacienți
din sistemele spitalicești A și B au fost postate public pentru accesare pe scară largă.
Datele acestui Challenge au conținut 40 de variabile clinice de intrare:
- 8 variabile de semne vitale,
- 26 de variabile de laborator și
- 6 variabile demografice;
În total, aceste date au inclus peste 2,5 milioane de intervale de timp și 15 milioane de puncte de date. Datele extrase
din EHR-urile spitalelor au fost supuse unei serii de pași de preprocesare înainte de analiza formală și dezvoltarea
modelului. Toate caracteristicile pacientului au fost condensate în intervale orare, simplificând dezvoltarea și testarea
modelului, de exemplu, măsurătorile multiple ale frecvenței cardiace într-o fereastră de timp orară au fost rezumate ca
măsurare medie a frecvenței cardiace. Numele și codurile identificatorilor de observație logică multiple (LOINC) care
descriu același parametru clinic au fost condensate într-o singură variabilă, de exemplu, hemoglobina serică și
hemoglobina arterială au devenit hemoglobină (general).
Aceste seturi de informatii includ următoarele date de intrare pentru fiecare pacient în parte:

- Parametrii fiziologici:

Parametru fiziologic Semnificație [unitate de măsură]


HR Ritmul cardiac (bătăi pe minut)
O2Sat Nivelul saturației de oxigen (%)
Temp Temperatura (grade c)
SBP Tensiunea arterială sistolică (mm hg)
MAP Tensiunea arterială medie (mm hg)
DBP Tensiunea arterială diastolică (mm hg)
Resp Frecvența respiratorie (respirații pe minut)

- Parametrii de laborator (biochimici):

Parametru biochimic Semnificație [unitate de măsură]


BaseExcess Măsurarea excesului de bicarbonat (mmol/L)
HCO3 Bicarbonat (mmol/L)
FiO2 Fracția de oxigen inspirat (%)
pH -
Presiunea parțială a dioxidului de carbon din sângele
PaCO2
arterial (mm Hg)
SaO2 Saturația de oxigen din sângele arterial (%)
AST Aspartat transaminaza (UI/L)
BUN Azotul ureic din sânge (mg/dL)
Alkalinephos Fosfataza alcalina (UI/L)
Calcium (mg/dL)
Chloride (mmol/l)
Creatinine (mg/dL)
Bilirubin_direct Bilirubina directă (mg/dL)
Glucose Glucoza serica (mg/dL)
Lactate Acid lactic (mg/dL)
Magnesium (mmol/dL)
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Phosphate (mg/dL)
Potassium (mmol/l)
Bilirubin_total Bilirubina totala (mg/dL)
TroponinI Troponina I (ng/ml)
Hct Hematocrit (%)
Hgb Hemoglobina (g/dL)
PTT timp parțial de tromboplastină (secunde)
WBC Număr de leucocite (număr*103/µL)
Fibrinogen (mg/dL)
Platelets (număr*103/µL)

- Parametrii demografici:

Parametru Semnificație [unitate de măsură]


Age Vârsta în ani (100 pentru pacienții cu vârsta >=90)
Gender Sex Femeie (0) sau Bărbat (1)
Unit1 Unit1= Identificator administrativ pentru unitatea ICU (MICU)
Unit2 Unit2= Identificator administrativ pentru unitatea ICU (SICU)
HospAdmTime Numărul de ore dintre internarea în spital și internarea în ICU
ICULOS Durata șederii în ICU (numărul de ore de la internare)

➔ Parametrul de ieșire: SepsisLabel: 1- dacă t ≥ tsepsis−6 ; 0- dacă t < tsepsis−6

Spitalul A Spitalul B
Număr pacienți 20.336 20.000
Număr pacienți septici 1790 1142
Prevalența septicemiei 8,8% 5,7%
Numărul de rânduri de date 739.663 684.508
Numărul de intrări 5.536.849 4.950.064
Densitatea intrărilor 20,6% 19,1%

Tabelul III.1 – Descrierea celor două seturi de antrenare a modelului


Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

IV. Descrierea metodei propuse

Modelul propus în lucrarea de față are ca scop predicția apariției septicemiei folosind două tehnici populare de
machine learning, ale căror performanțe vor fi în final comparate: Gradient Boost și Logistic Regression. Motivația
alegerii acestor metode se sprijină pe simplitatea implementării lor, pe raportările frecvente din literatura de specialitate,
precum și pe performanțele pe care le-au obținut în alte studii de cercetare (performanțele variază în funcție de baza de
date folosită, metodele de preprocesare a datelor, etc.) [ ]
Schema bloc pe care modelul propus a fost construit este următoarea:

Figura IV.1 – Schema-bloc a metodei propuse

Pasul 1: Constă în accesarea bazei de date

- încărcarea seturilor de date


- vizualizarea seturilor de date, precum și a distribuției de pacienți cu septicemie printre
informațiile acestora

Pasul 2: Presupune realizarea unor analize statistice asupra distribuției datelor

- Folosind criteriul simplității, aceste analize au fost realizate în Tool-ul Tableau Desktop de
vizualizare interactivă a datelor
- Acest pas pune în evidență anumiți parametri
- Se dorește afișarea procentajului de valori NaN pentru fiecare parametru al bazei de date
- Se urmărește punerea în evidență a relației stabilite între pacienți și parametrul de iețire
SepsisLabel
- Se va vizualiza distribuția pe vârste a pacienților cu SepsisLabel ==1
- Se va vizualiza distributia pacienților în funcție de durata internării la ICU
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Pasul 3: Preprocesarea datelor : eliminarea datelor redundante sau irelevante; umplerea valorilor
NaN cu valori mediane pentru a nu influența rezultatul final

Pasul 4: Antrenarea modelelor predictive: implementarea algoritmilor Gradient Boost si Logistic


Regression

- Are doua abordări: cu date agregate si cu date neagregate


- Pe criteriul simplității, s-a ales implementarea doar a abordării bazate pe date neagregate; acestea sunt datele la
care componenta temporală se ignoră (și ajută la realizarea predicției instalării septicemiei indepenedent de timp
la orice pacient)
- Datele agregate sunt datele la care se ia in calcul maximul, minimul si variabilitatea parametrilor (abordarea asta
ne ajuta sa observam cum fluctueaza starea pacientilor, ajutandu ne sa prezicem septicemia) (abordare
neimplementată)

Pasul 5: Evaluarea performanțelor modelelor predictive

- se vor folosi următorii parametrii de evaluare a performanțelor modelelor antrenate: acuratețea, precizia, recall
(sensibilitatea), precum și scorul ROC-AUC
- acuratețea se definește după formula:

- precizia (sau valoarea predictivă pozitivă/ PPV) se definește după formula:

- sensibilitatea (sau recall/rata adevărat-pozitivă/TPR) se definește după formula:

, unde
TP= numarul cazurilor (predictiilor) adevărat-pozitive
TN= numarul cazurilor (predictiilor) adevărat-negative
FP= numarul cazurilor (predictiilor) fals-pozitive
FN= numarul cazurilor (predictiilor) fals-negative
FDR=false discovery rate= FP/FP+TP
FNR=miss rate/false negative rate= FN/FN+TP
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

- ROC este o măsurătoare utilizată pentru a măsura performanța unui


model de clasificator. Curba ROC ilustrează rata de pozitive adevărate
în raport cu rata de pozitive false, evidențiind astfel sensibilitatea
modelului de clasificator.

- AUC ROC (Area under the Curve of Receiver Operating


Characteristics) este utilizat pentru a vizualiza performanța unui
model de clasificare pe baza ratei sale sau a clasificărilor corecte și
incorecte.

Figura IV.II. Evaluarea ariei de sub curba ROC

V. Rezultate și discuții

Pasul 1:
- Seturile de date A și B; setul A conține 20.336 fisiere, in timp ce setul B conține 20.000

Repartiția pe sexe (stânga-


feminin; dreapta-masculin) nu se
diferențiază susbtanțial → sexul
nu este un parametru neaparat
important
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

- S-a afisat procentul de pacienți cu (SepsisLabel ==1) din


fiecare set de date, reuzltând ca 8,8% dintre pacienții setului A
și, respectiv 5,7% dintre pacientii setului B au risc ridicat de
sepsis (valori ce se verifică cu ipoteza)

Pasul 2

Graficul de mai jos afișează procentajul de valori NaN (test) corespunzătoare fiecărui parametru. Se poate
observa că pentru majoritatea parametrilor biochimici, procentajul de valori nule este cuprins în intervalul [80,100] % ,
ceea ce ne indică o lipsă foarte mare de date.
Pentru pasul de preprocesare a datelor, se stabilește ca procentajul maxim de valori NaN pe care un parametru îl
poate admite să fie de 40%; dacă acets valoare-prag este depășită, parametrul analizat este considerat irelevant (conține
mai multe valori nule decât date efective și, prin urmare, nu oferă informații relevante)
Dintre acestea, doar următorii parametrii îndeplinesc condiția ca test < 40%:
- frecvența cardiacă
- saturația de oxigen
- systolic blood pressure
- diastolic blood pressure
- mean arterial pressure
- frecvența respiratorie
- vârsta
- sexul
- durata de internare la ICU
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

După concatenarea seturilor de date A și B, s-a determinat că


pacienții pot fi împărțiți în 3 categorii:
- pacienți care nu au avut sepsis (97,73%)
- pacienți care au dezvoltat sepsis în timpul internării la
ICU (6,21%)
- pacienți care au fost internați la ICU , deja având sepsis
(1,06%)

Fara sepsis Sepsis la ICU Sepsis de la inceput

Toti pacienții septici au fost înregistrați într-un set de


date separat care s-a analizat în funcție de vârsta
corespunzătoare
Se observă că numărul de cazuri de septicemie sunt mai
frecvent întâlnite la pacienții cu vârsta >30 ani.
Așadar, vârsta poate reprezenta un predictor bun al
apariției septicemiei.
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Alături, s-a reprezentat grafic


distribuția pe intervale de timp a
duratei de internare la ICU. Durata
cea mai frecventă se încadrează în
intervalul 1-2 zile.

Reprezentarea grafică de alături pune în evidență legătura


dintre vârsta pacienților și durata de timp dintre internarea
în spital și cea la ICU. Se observă că pacienții cu vârste
>=50 ani au petrecut mai mult de 50h internați în diverse
secții ale spitalului, făcându-i astfel mai predispuși la
contactarea agenților infecțioși intraspitalicești, ce pot duce
la apariția septicemiei.

Pasul 3
- s-au eliminat toate coloanele care nu au îndeplinit condiția de procentaj-limită a valorilor de NaN

- pentru coloanele rămase, toate valorile NaN s-au umplut cu valorile medii pentru a nu influența setul de date
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Pasul 4:

a. Implementarea modelului de Logistic Regression


Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

b. Implementarea modelului de Gradient Boost


Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

Logistic Logistic Gradient Gradient


Parametrul de performanță Regression Regression Boost Boost
măsurat (antrenat) (testat) (antrenat) (antrenat)

Acuratețe 0.9778 0.9782 0.9175 0.9157


Precizie 0.1510 0.0952 0.119 0.112
Recall 0.0034 0.0019 0.4382 0.4278
Scorul ROC AUC 0.7105 0.7013 0.7944 0.7851
Tabeleul IV.I- Parametrii de performanță ai modelului obținut

Cu excepția acurateței algoritmului LR, toate valorile obținute pentru seturile de testare sunt mai mici decât
cele ale setului de antrenament. Acest defect poate fi un indiciu al unei slabe funcționări a setului de date folosit/
inadvertențe la nivelul preprocesării acestuia.
Deși algoritmul de LR are o acuratețe a setului de date testat mai bună, toți ceilalți parametri indică faptul că
algoritmul de GB are performanțe per total mai bune, așa cum era de așteptat (aceeași concluzie este întâlnită și în
majoritatea studiilor de cercetare din literatura de specialitate).
Valoarea scorului ROC_AUC de 0.7944 clasează algoritmul de GB pe o poziție acceptabilă a performanței,
dacă se ia în considerare [25]
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

IV. Concluzii

Septicemia este o patologie greu de încadrat într-o definiție; natura ei însăși fiind dependentă de o mulțime de
parametri de naturi diferite ce variază în timp, fluxul de informații pentru o bază de date cu suficient de mulți pacienți
poate să ridice probleme, îngreunând timpul de procesare și necesitând sisteme de calcul puternice, care să nu se bazeze
pe modele liniare (și,deci, inflexibile față de cerințele de față).
Din capitolul anterior, secțiunea de preprocesare și analize statistice ne indică trei informații prețioase: vârsta, durata
de internare la ICU, precum și durata de internare până la internarea in ICU pot fi factori care să influențeze apariția
septicemiei; această afirmație este justificabilă, deoarece:

- se cunoaște că efectele îmbătrânirii asupra sistemului imunitar se manifestă la mai multe niveluri care includ
producția redusă de celule B și T în măduva osoasă și timus și funcția diminuată a limfocitelor mature în
țesuturile limfoide secundare. Drept urmare, persoanele în vârstă nu răspund la provocări imunitare la fel de
puternic ca tinerii. Totodată, vârsta înaintată se asociază de cele mai multe ori cu alte comorbidități, ce pot
facilita apariția septicemiei [21]

- durata de internare la ICU poate influența apariția septicemiei, mai ales în cazurile în care pacienții sunt intu-
bați - din punct de vedere statistic, cea mai comună sursă a septicemiei este reprezentată de tractul respirator
(67,4%); o durată mare de internare la ICU presupune un timp îndelungat de intubare, și deci un timp de
expunere ridicat [22]
- durata de internare în spital (înainte de intrarea la ICU) poate reprezenta un factor care să influențeze septice-
mia. De cele mai multe ori, o internare prelungită în spital a pacienților care ulterior sunt internați la ICU
mărește timpul de expunere la bacteriile intraspitalicești; mai mult decât atât, în cazul pacienților într-o stare
de sănătate precară se impune montarea de catetere intravenoase, urinare (sursele principale de contactare
bacteriană). Același lucru este valabil de asemenea și post-chirurgical, când pacienții sunt expuși mediului
necorespunzător sterilizat.[23]

Limitări

În realizarea acestui model, s-au întâlnit numeroase limitări. Câteva dintre acestea merită a fi menționate pentru
a îmbunătți performanțele obținute pe viitor.
În primul rând, au fost depistate neajunsuri în ceea ce privește baza de date folosită. Marea majoritate a para-
metrilor incluși în această bază de date, în special în cazul parametrilor biochimici, au avut un procentaj de valori NaN
de peste 80%; acest lucru împiedică obținerea unei perspective complete asupra modului în care acești parametrii in-
fluențează (sau nu) apariția septicemiei și a predicției acesteia.
În al doilea rând, algoritmul implementat a fost conceput pentru o analiză bidirecțională : una independentă
de timp, care să ofere informații exclusiv despre predicția sepsis-ului fără a fi condiționată de coordonata temporală –
distribuția de date fiind considerată uniformă; cea de-a doua, luând în considerare coordonata temporală, punând în
evidență fluctuațiile în timp ale anumitor parametri și, deci, și a stării pacienților. Din cauza unei indexări disfuncționale
a coordonatelor temporale ale datelor din baza de date aleasă, cea de-a doua analiză nu a putut fi realizată – așadar acest
raport este incomplet fără aceasta.
În al treilea rând, deși, așa cum s-a discutat și în capitolul I, tendințele atât actuale, cât și viitoare, plasează
accentul asupra tehnicilor de învățare automată în domeniul diagnosticării și prevenirii septicemiei, majoritatea acestora
sunt greu interpretabile de către personalul medical, dacă s-ar lua în calcul scenariul ideal de implementare a algorit-
milor în sistemele electronice medicale ale spitalelor.
În al patrulea rând, modelele de predicție automată a septicemiei nu pot fi utilizate pe scară largă (de exemplu,
națională), din cauza utilizării unor sisteme diferite de achiziție de semnale de la un spital la altul; implementarea
aceluiași algoritm pe dispozitive diferite poate duce la rezultate diferite, din cauza diverselor surse de erori survenite în
urma neuniformității sistematice. [24]
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

V. BIBLIOGRAFIE

1. Jendrek, S.T., Lai, X., Riemekasten, G., Vera, J., Schmeck, B., & Bertrams, W. (2021). Sepsis and Autoimmune Disease: Pathology,
Systems Medicine, and Artificial Intelligence.
2. Lee J, Song JU. Performance of a quick sofa-65 score as a rapid sepsis screening tool during initial emergency department assessment:
A propensity score matching study. J Crit Care. 2020 Feb;55:1-8. doi: 10.1016/j.jcrc.2019.09.019. Epub 2019 Oct 9. PMID: 31670148.
3. European Sepsis Alliance – official website https://www.europeansepsisalliance.org/sepsis
4. Almohammady MN, Eltahlawy EM, Reda NM. Pattern of bacterial profile and antibiotic susceptibility among neonatal sepsis cases at
Cairo University Children Hospital. J Taibah Univ Med Sci. 2020 Feb 4;15(1):39-47. doi: 10.1016/j.jtumed.2019.12.005. PMID:
32110181; PMCID: PMC7033391.
5. Rudd KE, Johnson SC, Agesa KM, Shackelford KA, Tsoi D, Kievlan DR, Colombara DV, Ikuta KS, Kissoon N, Finfer S,
Fleischmann-Struzek C, Machado FR, Reinhart KK, Rowan K, Seymour CW, Watson RS, West TE, Marinho F, Hay SI, Lozano R,
Lopez AD, Angus DC, Murray CJL, Naghavi M. Global, regional, and national sepsis incidence and mortality, 1990-2017: analysis for
the Global Burden of Disease Study. Lancet. 2020 Jan 18;395(10219):200-211. doi: 10.1016/S0140-6736(19)32989-7. PMID:
31954465; PMCID: PMC6970225.
6. Mostel Z, Perl A, Marck M, et al. Post-sepsis syndrome - an evolving entity that afflicts survivors of sepsis. Mol Med. 2019;26(1):6.
Published 2019 Dec 31. doi:10.1186/s10020-019-0132-z
7. Desautels T, Calvert J, Hoffman J, et al. Prediction of Sepsis in the Intensive Care Unit With Minimal Electronic Health Record Data:
A Machine Learning Approach. JMIR Med Inform. 2016;4(3):e28. Published 2016 Sep 30. doi:10.2196/medinform.5909
8. Singer M, Deutschman CS, Seymour CW, et al. The Third International Consensus Definitions for Sepsis and Septic Shock (Sepsis-3).
JAMA. 2016;315(8):801-810. doi:10.1001/jama.2016.0287
9. Yee CR, Narain NR, Akmaev VR, Vemulapalli V. A Data-Driven Approach to Predicting Septic Shock in the Intensive Care Unit.
Biomedical Informatics Insights. January 2019. doi:10.1177/1178222619885147
10. Barton, Christopher, et al. "Evaluation of a machine learning algorithm for up to 48-hour advance prediction of sepsis using six vital
signs." Computers in biology and medicine 109 (2019): 79-84.
11. Qin, Fred, et al. "Improving Early Sepsis Prediction with Multi Modal Learning." arXiv preprint arXiv:2107.11094 (2021).
12. Singer M, Deutschman CS, Seymour CW, et al. The Third International Consensus Definitions for Sepsis and Septic Shock (Sepsis-3).
JAMA. 2016;315(8):801–810. doi:10.1001/jama.2016.0287
13. Goh, K.H., Wang, L., Yeow, A.Y.K. et al. Artificial intelligence in sepsis early prediction and diagnosis using unstructured data in
healthcare. Nat Commun 12, 711 (2021). https://doi.org/10.1038/s41467-021-20910-4
14. Reyna, Matthew A et al. “Early Prediction of Sepsis From Clinical Data: The PhysioNet/Computing in Cardiology Challenge 2019.”
Critical care medicine vol. 48,2 (2020): 210-217. doi:10.1097/CCM.0000000000004145
15. Moor, Michael, et al. "Early prediction of sepsis in the ICU using machine learning: a systematic review." Frontiers in medicine 8
(2021): 348.
16. Gupta A, Liu T, Shepherd S. Clinical decision support system to assess the risk of sepsis using Tree Augmented Bayesian networks
and electronic medical record data. Health Informatics Journal. June 2020:841-861. doi:10.1177/1460458219852872
17. Back, Ji‐Sun, et al. "Development and validation of an automated sepsis risk assessment system." Research in nursing & health 39.5
(2016): 317-327.
18. Nemati S, Holder A, Razmi F, Stanley MD, Clifford GD, Buchman TG. An Interpretable Machine Learning Model for Accurate
Prediction of Sepsis in the ICU. Crit Care Med. 2018;46(4):547-553. doi:10.1097/CCM.0000000000002936
Universitatea POLITEHNICA din Bucureşti
FACULTATEA DE INGINERIE MEDICALĂ

19. Johnson, A., Pollard, T., & Mark, R. (2016). MIMIC-III Clinical Database (version 1.4). PhysioNet.
https://doi.org/10.13026/C2XW26.
20. https://www.cell.com/iscience/pdf/S2589-0042(21)01621-7.pdf
21. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3582124/
22. https://wwwncbi.nlm.nih.gov/pmc/articles/PMC6289022/
23. https://www.medmalfirm.com/news-and-updates/healthcare-infections-sepsis-in-hospitals/
24. https://www.beckershospitalreview.com/healthcare-information-technology/why-sepsis-prediction-models-fail-4-things-to-know.html
25. Jayawant N. Mandrekar,Receiver Operating Characteristic Curve in Diagnostic Test Assessment, Journal of Thoracic Oncology,
Volume 5, Issue 9, 2010, Pages 1315-1316, ISSN 1556-0864, https://doi.org/10.1097/JTO.0b013e3181ec173d

S-ar putea să vă placă și