Facultatea de Cibernetica, Statistica si Informatica Economica
Teoria Jocurilor A Stochastic ame Model !ith Im"erfect Information in C#ber Securit#$ Sursa: De"artment of Com"uter Science, Uni%ersit# of Mem"his, Mem"his, TN, USA &htt"'(("eo"le)cis)*su)edu+ Autori: Sa,,an Shi%a, San*ardas -o#, .ar*eerat /edi, Di"an*ar Das0u"ta, 1ishi 2u 3rofesor 3rof) uni%) dr) -OMAN Mihai Daniel Student I4IESCU /o0dan Marius /ucuresti 5678 Un model de joc stochastic in informatie imperfecta in Securitatea Cibernetica 0. Abstract In timp ce in tehnologia informatiei si in infrastructura se observa progrese semnificative care ofera noi oportunitati, spatiul cibernetic este inca departe de a fi complet sigur. Recent, cercetatorii au inceput sa exploreze aplicabilitatea teoriei jocurilor in analiza problemei spatiului cibernetic. Interactiunea intre atacuri si mecanismele de aparare poate fi considerata ca un joc intre atacator si sistemul defensiv. Una dintre tehnicile care au fost propuse in literatura folosea modele de jocuri stochastice pentru a emula jocuri de securitate a retelei si pentru a determina cea mai buna strategie a sistemului defensiv in functie de posibila strategie de atac folosita de atacator. Aceasta insa presupunea ca jucatorii sa aiba informatie perfecta despre stadiul curent al jocului, ceea ce in realitate nu se aplica. In particular, modelul prezentat in cele ce urmeaza ofera o analiza teoretica prin care sistemul defensiv poate calcula propriile scenarii prin care poate atinge echilibrul Nash al unui joc stochastic, cu ajutorul senzorilor de informatie incompleta. 1. Introducere Odata cu cresterea exploziva a internetului si utilizarea acestuia in toate sectoarele, securitatea a devenit o provocare din moment ce hacerii gasesc noi modalitati de a lansa atacuri in mai multe stagii pentru a provoca daune informatiilor sensibile. In ciuda eforturilor considerabile din partea comunitatii de cercetare, aceasta problema este departe de a fi complet rezolvata. Recent, cercetatorii au inceput sa studieze aplicabilitatea teoriei jocului pentru a aborda aceasta problema !Ro" #$%$&. 'in moment ce teoria jocurilor se ocupa cu scenarii in care mai multi jucatori, cu obiective contradictorii, intra in competitie unii cu altii, aceast poate oferi un cadru matematic pentru analiza si modelarea provocarilor in sistemele de securitate informationala. Interactiunea dintre atacurile si mecanismele de aparare poate fi considerata ca un joc jucat intre atacator si administratorul de sistem. (entru a modela atacuri si mecanisme de aparare, un model de joc stohastic a fost propus in literatura de specialitate !)"e #$$#* )"e #$$+* Alpcan #$$,&. -tarea de joc se schimba 2 probabilistic, in functie de actiunile intreprinse de catre jucatori !de exemplu, tipul de atacuri si raspunsul sistemului de aparare& si configuratiile de sistem. In timpul fiecarei tranzitii, fiecare jucator primeste un castig sau suporta unele costuri !pa"off negativ&. .xista tehnici prin care un jucator poate determina cea mai buna strategie pentru a obtine cea mai mare rasplata generala avand in vedere toate strategiile posibile ale adversarului. /eoreticieni ai jocului au formulat conceptul de solutie pentru un joc stochastic in functie de notiunea de echilibru Nash, si au oferit deja analiza ce indica existenta acestui echilibru !0ilar %112&. Asa cum s3a mentionat, modelele anterioare de joc stochastic pentru securitatea retelei !)"e #$$#* )"e #$$+& presupun ca jucatorii au informatie perfecta despre starea actuala a jocului, ceea ce implica faptul ca sistemul aparator este intotdeauna capabil sa detecteze un atac, iar atacatorul este intotdeauna constient de mecanismul de aparare angajat. In sistemele reale, un jucator foloseste un senzor !de exemplu, senzor de aparare poate fi o parte a sistemului de detectare a intruziunilor !I'-&&, pentru a observa starea actuala a sistemului si pentru a decide strategia. -e crede ca nici un senzor real nu poate citi perfect mediul, de aceea, de obicei, exista o probabilitate de eroare diferita de zero. 'eci, in cele mai multe cazuri, ipoteza de mai sus cu privire la informatia perfecta nu se respecta in viata reala. )ucrarea de fata relaxeaza aceasta ipoteza si proiecteaza un model de joc stochastic, care este capabil de a capta scenarii mai realiste. -e considera ca un jucator cunoaste adevarata stare a sistemului la un moment dat cu o oarecare probabilitate de eroare, de exemplu, la un moment dat, starea adevarata si perceptia unui jucator pot fi potential diferite. 4u aceasta constrangere suplimentara de informatie imperfecta, aceasta lucrare calculeaza cea mai buna strategie pentru un jucator avand in vedere alegerea de posibile strategii de catre alti jucatori. In special, aceasta lucrare prezinta o analiza teoretica prin care sistemul de aparare poate calcula cel mai bine strategia sa de a atinge echilibrul Nash al unui joc stochastic presupunand ca senzorul aparatorului este imperfect. .ste implicit faptul ca aparatorul cunoaste probabilitatea de eroare a senzorului si ca obiectivele jucatorilor sunt direct opuse, adica un joc cu suma nula. 5ai mult decat atat, lucrarea noastra arata ca, daca aparatorul urmeaza strategia prevazuta de modelul de informatie perfecta, atunci echilibrul Nash nu este atins si castigul atacatorului poate fi mai mare. Algoritmul nostru de calcul ruleaza deconectat cu mult inainte ca jocul sa fie jucat, de 3 unde rezulta ca analiza noastra de joc este statica. 5ai mult decat atat, rezultatele noastre teoretice sunt validate prin experimente de simulare in 5A/)A6. 4ontributiile majore ale acestei lucrari sunt prezentate mai jos7 a. 8a prezentam o analiza statica pentru un joc stochastic de suma zero in informatie incompleta si calculam cea mai buna strategie pentru administratorul de s"stem !sistemul defensiv& in scenarii realiste. b. Analiza si experimentele noastre ilustreaza faptul ca administratorul de sistem va fi mai bine sa lipseasca daca se considera strategia noastra fata de scenariul de cand executa strategia prevazuta de modele in informatii perfecte. 2. Un model de joc stochastic Aceasta sectiune ofera o scurta prezentare a unui model de joc stochastic asa cum s3a discutat in prima parte !)"e #$$#* )"e #$$+&. )"e si altii modelau interactiunea dintre atacurile si actiunile de aparare ca doi jucatori !9 : %, #&, joc in care jucatorul % este atacatorul si jucatorul # este administratorul de sistem !)"e #$$#* )"e #$$+&. Acest orizont infinit al modelului de joc stochastic considera N stari. ;ocul stochastic este reprezentat de un tuplu !9,9<,9=,9,9<,9=,9&, ale carui elemente sunt definite mai jos7 9:>? % ,? # ,@,? N A un set de stari. O stare reprezinta statusul curent al sistemului de analiza 9 9 : >9 9 ?% ,9 9 ?# ,@,9 9 ?N A,9:%,# unde 9 9 ?j :> 9 9% 9 ,9 9# 9 ,@,9 999 9 A actiunea jucatorului in starea j . -e presupune ca 99:B99?jB pentru % C9 C9. (robabilitatile de tranzitie ale starilor sunt date de functia 979D9<D9=D9EF$ %G care mapeaza o pereche de stari si o pereche de actiuni cu un numar real intre $ si %. .xemplu, 9!?%, H<%, H=%, ?#& : $.I este interpretata ca probabilitate de tranzitie a starii de la ?% la ?# considerand ca jucatorul % actioneaza cu actiunea H<% si jucatorul # cu H=%. 4 Recompensa jucatorului este determinaae de functia 997 9D9%D9#E care mapeaza o stare su o pereche de actiuni cu un numar real. 4a exemplu, 9%!?%, H%%, H#%& : J# este interpretat ca fiind castigul obtinut de atacator la starea ?% considerand ca acesta face actiunea H%% si jucatorul # actioneaza H#%. K, $ L K L % este factorul de reducere, pentru a reduce castiguri viitoare, calculand castigul per ansamblu al unui jucator in orizontul de timp infinit. 8om defini acum strategia stationara a jucatorului. -trategia stationara este cea care ramane constanta in timp. 0ie setul de probabilitati al vectorului de lungime n. 0ie functia ce genereaza strategia jucatorului , unde si 999, 99 sunt probabilitatile cu care jucatorul selecteaza actiunea 99 in starea 9. In fiecare stare a tranzitiei, jucatorul 9 primeste un castig, definit de functia 99 sau plateste un cost. (entru a calcula castigul total al jucatorul , vom considera miscarile viitoare ce vor schimba starea prezenta in stari viitoare acordand castiguri jucatorului . 4astigul total este calculat folosind factorul K. 0iecare jucator are scopul de a maximiza castigul sau asteptat. .chilibrul Nash al acestui joc este definit a fi o pereche de strategii , care indeplinesc simultan urmatoarele ecuatii7 Un joc stochastic este numit de suma nula daca recompensa unui jucator la fiecare etapa este egala si opusa de a celuilalt. 5 (utem calcula strategia de echilibru Nash a jucatorilor pentru un joc stochastic cu suma nula, printr3o analiza statica !analiza offline& de joc, folosind algoritmul discutat !0ilar %112&. Algoritmul folosit este de fapt o tehnica iterativa de optimizare neliniara. 3. oc stochastic in informatie incompleta 5odelul de joc de mai sus presupune ca jucatorii au informatie perfecta despre starea actuala a jocului. -ectiunea I.% prezinta modelul nostru de joc stochastic in informatie incompleta. -ectiunea I.# prezinta o analiza statica si sectiunea I.I ofera rezultatele simularii. 3.1. Modelul 5odelul prezentat in continuare este o extensie a modelului teoretic prezentat mai sus si considera ca un jucator 9 !9:%,#& observa starea reala a jocului la un moment particular cu un dispozitiv numit sensor. 4omparand cu modelul in informatie perfecta, actiunile posibile ale jucatorului se reduc. 0ormal, modelul este reprezentat de tuplul7 , unde7 3 starile posibile , cu informatia jucatorului atunci cand starea reala este probabilitatile de eroarea ale senzorului jucatorului la starea reala
actiunile jucatorul in starea setul de actiuni extinse ale jucatorului in starea 6 (robabilitatile de tranzitie intre stari sunt reprezentate de functia 4astigul este determinat de functia factorul de diminuare in cazul jocului cu orizont infinit 0unctia de strategie a modelului in informatie perfecta s3a modificat in 'efinitia vectorului de cost a jucatorului si echilibrul Nash au fost extinse in mod similar. O diferenta majora a acestui model fata de jocul in informatie perfecta este urmatoarea7 cum senzorul jucatorului nu este perfect, atunci cand strategia este executata in adevaratul sens, strategia observata este diferita de , asa cum vom vedea in cele ce urmeaza. 3.2. O analiza statica pentru un joc cu 2 stari 8a prezentam acum o analiza statica a modelului nostru de joc, prin care un jucator isi poate calcula cea mai buna strategie offline. .ste considerat un joc de suma nula. Aceasta analiza ia in considerare scenariul Mcel mai rau cazN din punct de vedere al aparatorului. -e presupune ca doar senzorul aparatorului este eronat, in timp ce atacatorul poate observa perfect starea actuala a jocului. .ste de remarcat faptul ca analiza noastra poate fi usor extinsa la cazul in care senzorul atacatorului este, de asemenea imperfect. 5ai mult decat atat, aceasta analiza se limiteaza la un joc de doua stari de dragul simplitatii. In activitatea viitoare, aceasta analiza va fi extinsa pentru jocurile cu mai mult de doua stari. Ne concentram pe urmatorul joc asa cum este ilustrat in 0igura %. 7 -unt doua stari definite in acest joc. -istemul este fie in stare normala !-%&, fie in stare infectat !-#&. -enzorul administratorului de sistem este imperfect, iar probabilitatile de eroare in starile -% si -# sunt 9% si 9#. Asta inseamna ca atunci cand starea reala este -%, cu probabilitatea 9%, administratorul de sistem observa starea ca fiind -#, iar cand starea reala este -#, administratorul de sistem observa starea ca fiind -% cu probabilitatea 9#. 4u toate astea, se presupune ca probabilitatile de eroare ale senzorului sunt cunoscute de catre administratorul de sistem. (e de alta parte, senzorul atacatorului observa starea curenta fara eroare. Actiunile jucatorilor sunt A% si A#, a : attac, na : no attac, d : defense, nd : no defense -trategiile jucatorilor7 3 jucatorul % alege a, 3 jucatorul % alege na, in starea -% 8 . 3.3. Simularea 8om demonstra fezabilitatea si eficacitatea modelului nostru, prin utilizarea de jocuri asa cum s3a discutat in sectiunea I.#. 0igura % prezinta cele doua stari de sistem si tranzitiile posibile dintre ele. Actiunile posibile ale atacatorului in oricare dintre stari sunt, fie a !atac&, fie na !nici un atac&. Actiunea de atac indica executarea unui atac cu motivatia de a aduce reteaua la starea infectat sau de a continua atacul in starea respectiva. Actiunile posibile ale aparatorului sunt fie d !aparare&, fie nd !nici o aparare&. Na sau Nd indica stari in care nicio actiune nu se executa. Am stabilit K factorul de discount la $,2+ si doua probabilitati de eroare ale senzorului aparator, O% si O# ca $,% si $,$+. (rimul nostru experiment arata ca modelul in informatie perfecta !)"e #$$#* )"e #$$+& poate da castig mai mare atacatorului, comparativ cu modelul nostru. 'e exemplu, in starea normala, cand atacatorul si aparatorul efectueaza primele actiuni, recompensa pentru atacator este de %$, iar probabilitatea retelei de a ramane in stare normala este $.2 si de schimbare in stare infectat este de $.I. 9 opt-trat% : F$.P,1, $.%I$J* $.P2I+ $.%#,+G !atacator& opt-trat# : F$.I++2 $.,JJI* $.2$%J $.#1P,G !aparator&. 8aloarea 9joc !pa"off3ul atacatorului atunci cand jocul incepe de la stare normala& se dovedeste a fi #PJ.+,I2. 4u toate acestea, deoarece senzorul aparatorului este defect, nu poate executa direct aceasta strategie -trategia aparenta a aparatorului se calculeaza ca app-trat# : F$.I2$P $.,#1#, $.,,#$ $.IIP$G folosind ecuatia !%&. 5odelul nostru sugereaza aparatorului sa execute strategia aparenta !app-trat#& rezultand valoarea jocului 8:#PJ.+,I2. -e verifica ca, in realitate, strategia adevarata opt-trat# este executata de fiecare data cand aceasta strategie aparenta este jucata de catre aparator. 'e aceea echilibrul Nash este atins si valoarea jocului !9& ramane acelasi ca in cazul anterior. Avand in vedere ca echilibrul Nash este atins, in cazul in care aparatorul adera la app-trat#, atacatorul nu poate obtine un castig mai mare decat 9 daca acesta modifica strategia lui. 'aca aparatorul urmeaza un model de joc bazat pe informatie perfecta, opt-trat# ar strategia aparenta. Acest scenariu a fost, de asemenea, simulat si s3a observat ca jocul nu este in echilibru Nash. Acest lucru a fost observat stabilind strategia atacatorului la -trat% : F$ %* $ %G, 10 iar valoarea de joc !99& obtinuta a fost J##.PIJ2, care este mai mare decat 9. 'e asemenea, s3a verificat ca, daca atacatorul adera la opt-trat% !care corespunde echilibrului Nash&, atunci valoarea jocului ramane acelasi cum era de asteptat. 11 12