Sunteți pe pagina 1din 2

Se prezint o metod de rezolvare a proceselor decizionale secveniale de lung durat.

Se ia n considerare un sistem cu un numr discret de stari, N, i un set de probabiliti de pij pentru micarea de la starea i la starea j. Exist, de asemenea,o recompensa asociata cu sistemul, rij, la fiecare tranziie. La fiecare stare i este o alegere din mai multe seturi a probabilitilor de tranziie, care poate fi folosita pe rndul i al matricei pij. Fiecare set de probabiliti are asociat un set de recompense, rij, iar combinaia este o alternativ la stare i. O metoda pentru sistem este alegerea unei alternative din fiecare stare, astfel nct probabilitatea i intoarcerea la matrice sunt definite. Odat ce sistemul face trecerea intr-un anumit mod, acesta prezint toate caracteristicile unui proces Markov, dar cu toate acestea, se genereaz o secven a revenirilor de la aceste tranziii. Problema const n a gsi acel mod care va face ca sistemul s aib cele mai mari ctiguri medii, dup ce a ajuns la echilibru statistic. Modul de repetare al metodei pentru a gsi procedeul optim se bazeaz pe un ciclu de repetare din dou pri . Intreaga procedura se bazeaz pe o dovad c Vin, randamentul total estimat la n care incepe de la starea i , poate fi reprezentat n forma vi + ngi pentru n foarte mare .Valorile tranzitorii Vi i cresterea lui gi depind doar starea de pornire i . n cele mai multe cazuri practice gi este independent de i i i se poate da simbolul g . Cantitatea g se numete ctigul modelului , el este randamentul mediu pe tranziie , dup un numr mare de micri . Metoda optim cu cel mai mare ctig . Prima parte a ciclului de repetare este o procedur care se gsete valorile vi i gi pertinente pentru o anumit metoda . Procedura poate fi efectuat fie prin rezolvarea lui N cu N ecuaii simultane liniare sau printr-o abordare de simulare folosind metoda Monte Carlo . Cea de a doua parte a ciclului de repetare este o rutina de mbuntire a practicii , care va gsi o metoda cu ctig mai mare dac exist o astfel de practica . Convergen cu privire la metoda optim este garantat . Probleme n strategia de baseball i teoria nlocuire sunt prezentate pentru a ilustra puterea de a metodei. Aceast procedur ar trebui s fac posibil formularea i soluia de multe decizii importante - probleme de luare. Operaiunea Valoare Determinarea Se considera sistemul functionand dupa o anumita metoda. Din moment ce o metoda a fost selectata, se poate renunta la indicele k i se vorbeste de probabilitate i intoarcerea la matricile [Pij] i *rij+. Elementele din aceste matrici sunt calculate n funcie de formula Pij = pijk, Rijk, cu k = Di. Presupunem c vom permite sistemului sa faca tranziii pe termen nelimitat i incercam s gsim metoda care va maximiza randamentul mediu primit pe tranziie, de acum aceasta este, prin definiie, metoda optim. Pentru orice metoda n care se opereaza, se stie c sistemul trebuie s prezinte comportamentul unui proces Markov. n special, dup un numr mare de mutri starea probabilitilor de ocupare trebuie s convearg. Avnd n vedere c revenirile depind de starea probabilitilor de ocupare, se ateapta ca randamentul mediu pe tranziie s se apropie de o limit, g, asa cum numrul de mutri devine foarte mare. Natura g va fi mai complet explicate mai jos, dar este suficient s spunem n acest moment care stim g este delimitat, deoarece g Max ij rij, i rij sunt finite. Valoarea g este o funcie

de politica sau set [Dij], acesta poate fi numit ctigul a politicii. Vom cuta s aflm c politica care maximizeaz g. Trebuie s se obin doar o revenire medie a lui g n cazul n care sistemul este cu adevrat n starea de echilibru, a fcut n tranziii, n care n -> . Dac lum n considerare sistemul cu un numr finit de miscari, n, atunci randamentul mediu pentru mutare va fi diferit de g i va depinde de starea n care este pornit sistemul. Definim Vin ca randamentul total de ateptare de la operarea sistemului pentru n mutari pornind de la starea 1 n cadrul metodei date. Valoarea Vin va fi, n general, compus din dou pri, o parte a starii de echilibru ng rezultata din comportamentul cand n -> , iar o parte tranzitorie Vi care depinde numai de starea de inceput, astfel nct Vin poate fi numit valoarea de pornire a sistemului n stare i cu n miscari rmase, vi este valoarea tranzitorie de pornire a sistemului n stare i. Dovada c Vin are forma prescris este amnat temporar n scopuri explicative. Se ia n considerare funcionarea sistemului pentru n mutari n cadrul unei anumite metode. Amintind definiia lui Vin, se obine ecuaia de recuren Aceast ecuaie prevede c valoarea de a fi n starea i cu n miscari rmase este egal cu media ponderat a sumei de ntoarcere de la o tranziie a starii j i valoarea de a fi n stare j cu n-1 mutari rmase. Ponderarea se face cu probabilitatile Pij, cum era de ateptat. Dac limita expresiei pentru Vin este substituita n aceast ecuaie, aceasta devine: Un set de N ecuaii legate de ctig i a valorilor tranzitorii a probabilitilor i revenirilor a fost obtinut. Cu toate acestea, un numr de necunoscute relev faptul c exist N vi calculat, plus valoarea luil g, un total de N +1 necunoscute coninut n cele N ecuaii. Aceast dificultate este invinsa dac examinam rezultatele adaugand o constant, a, pentru toate vi. Adugarea unei constante pentru toate vi las ecuaiile neschimbate . Acest lucru implic faptul c numai diferenele dintre vi sunt importante , i c valoarea absoluta este arbitrar ( ca n cazul energiei gravitaionale poteniale) . Realiznd aceast situaie s-ar putea n mod arbitrar , n msura n care aceste ecuaii sunt ngrijoratoare , stabilirea unui vi la zero , numit vN . Avem acum N ecuaii n N necunoscute , care pot fi rezolvate pentru g si vi rmase . Anii vi au acum interpretarea fizic care , n orice etap a procesului de vi - vis reprezint creterea n schimbul de ateptat din cauza de a intra n sistemul de stat i , mai degrab dect ntr-o stare standard este . Acest lucru este vzut prin luarea n considerare vin - VISN = vi - vis + ng - ng sau vin - VISN = vi - vis , independent de n . De acum nainte va fi convenabil pentru a apela valori tranzitorii relativeal VI-lea ( n raport cu starea standard este pentru care v este este stabilit arbitrar la zero) , aceste cantiti vor fi numit pur i simplu valori n situaiile n care pot aprea nici o ambiguitate . Unde qi=..... este randamentul ateptat de la o singur tranziie n stare i. Astfel, soluia acestor ecuatii depinde doar de N valori ale lui qi i de matricea N cu N [Pij]. Avnd n vedere c qi si PIJ sunt funcii numai ale metodei, avem acum un sistem de ecuaii care genereaz g si tranzitia relativa a lui vi referitoare la o metod speciala. S le numim generarea de ctig i valoarea n cadrul unei metode de determinare.

S-ar putea să vă placă și