Tra Ducere

Se prezint o metod de rezolvare a proceselor decizionale secveniale de lung durat.
Se ia n considerare un sistem cu un numr discret de stari, N, i un set de probabiliti de pij pentru micarea de la starea i la starea j. Exist, de asemenea,o recompensa asociata cu sistemul, rij, la fiecare tranziie. La fiecare stare i este o alegere din mai multe seturi a probabilitilor de tranziie, care poate fi folosita pe rndul i al matricei pij. Fiecare set de probabiliti are asociat un set de recompense, rij, iar combinaia este o alternativ la stare i. O metoda pentru sistem este alegerea unei alternative din fiecare stare, astfel nct probabilitatea i intoarcerea la matrice sunt definite. Odat ce sistemul face trecerea intr-un anumit mod, acesta prezint toate caracteristicile unui proces Markov, dar cu toate acestea, se genereaz o secven a revenirilor de la aceste tranziii. Problema const n a gsi acel mod care va face ca sistemul s aib cele mai mari ctiguri medii, dup ce a ajuns la echilibru statistic. Modul de repetare al metodei pentru a gsi procedeul optim se bazeaz pe un ciclu de repetare din dou pri . Intreaga procedura se bazeaz pe o dovad c Vin, randamentul total estimat la n care incepe de la starea i , poate fi reprezentat n forma vi + ngi pentru n foarte mare .Valorile tranzitorii Vi i cresterea lui gi depind doar starea de pornire i . n cele mai multe cazuri practice gi este independent de i i i se poate da simbolul g . Cantitatea g se numete ctigul modelului , el este randamentul mediu pe tranziie , dup un numr mare de micri . Metoda optim cu cel mai mare ctig . Prima parte a ciclului de repetare este o procedur care se gsete valorile vi i gi pertinente pentru o anumit metoda . Procedura poate fi efectuat fie prin rezolvarea lui N cu N ecuaii simultane liniare sau printr-o abordare de simulare folosind metoda Monte Carlo . Cea de a doua parte a ciclului de repetare este o rutina de mbuntire a practicii , care va gsi o metoda cu ctig mai mare dac exist o astfel de practica . Convergen cu privire la metoda optim este garantat . Probleme n strategia de baseball i teoria nlocuire sunt prezentate pentru a ilustra puterea de a metodei. Aceast procedur ar trebui s fac posibil formularea i soluia de multe decizii importante - probleme de luare. Operaiunea Valoare Determinarea Se considera sistemul functionand dupa o anumita metoda. Din moment ce o metoda a fost selectata, se poate renunta la indicele k i se vorbeste de probabilitate i intoarcerea la matricile [Pij] i *rij+. Elementele din aceste matrici sunt calculate n funcie de formula Pij = pijk, Rijk, cu k = Di. Presupunem c vom permite sistemului sa faca tranziii pe termen nelimitat i incercam s gsim metoda care va maximiza randamentul mediu primit pe tranziie, de acum aceasta este, prin definiie, metoda optim. Pentru orice metoda n care se opereaza, se stie c sistemul trebuie s prezinte comportamentul unui proces Markov. n special, dup un numr mare de mutri starea probabilitilor de ocupare trebuie s convearg. Avnd n vedere c revenirile depind de starea probabilitilor de ocupare, se ateapta ca randamentul mediu pe tranziie s se apropie de o limit, g, asa cum numrul de mutri devine foarte mare. Natura g va fi mai complet explicate mai jos, dar este suficient s spunem n acest moment care stim g este delimitat, deoarece g Max ij rij, i rij sunt finite. Valoarea g este o funcie
de politica sau set [Dij], acesta poate fi numit ctigul a politicii. Vom cuta s aflm c politica care maximizeaz g. Trebuie s se obin doar o revenire medie a lui g n cazul n care sistemul este cu adevrat n starea de echilibru, a fcut n tranziii, n care n -> . Dac lum n considerare sistemul cu un numr finit de miscari, n, atunci randamentul mediu pentru mutare va fi diferit de g i va depinde de starea n care este pornit sistemul. Definim Vin ca randamentul total de ateptare de la operarea sistemului pentru n mutari pornind de la starea 1 n cadrul metodei date. Valoarea Vin va fi, n general, compus din dou pri, o parte a starii de echilibru ng rezultata din comportamentul cand n -> , iar o parte tranzitorie Vi care depinde numai de starea de inceput, astfel nct Vin poate fi numit valoarea de pornire a sistemului n stare i cu n miscari rmase, vi este valoarea tranzitorie de pornire a sistemului n stare i. Dovada c Vin are forma prescris este amnat temporar n scopuri explicative. Se ia n considerare funcionarea sistemului pentru n mutari n cadrul unei anumite metode. Amintind definiia lui Vin, se obine ecuaia de recuren Aceast ecuaie prevede c valoarea de a fi n starea i cu n miscari rmase este egal cu media ponderat a sumei de ntoarcere de la o tranziie a starii j i valoarea de a fi n stare j cu n-1 mutari rmase. Ponderarea se face cu probabilitatile Pij, cum era de ateptat. Dac limita expresiei pentru Vin este substituita n aceast ecuaie, aceasta devine: Un set de N ecuaii legate de ctig i a valorilor tranzitorii a probabilitilor i revenirilor a fost obtinut. Cu toate acestea, un numr de necunoscute relev faptul c exist N vi calculat, plus valoarea luil g, un total de N +1 necunoscute coninut n cele N ecuaii. Aceast dificultate este invinsa dac examinam rezultatele adaugand o constant, a, pentru toate vi. Adugarea unei constante pentru toate vi las ecuaiile neschimbate . Acest lucru implic faptul c numai diferenele dintre vi sunt importante , i c valoarea absoluta este arbitrar ( ca n cazul energiei gravitaionale poteniale) . Realiznd aceast situaie s-ar putea n mod arbitrar , n msura n care aceste ecuaii sunt ngrijoratoare , stabilirea unui vi la zero , numit vN . Avem acum N ecuaii n N necunoscute , care pot fi rezolvate pentru g si vi rmase . Anii vi au acum interpretarea fizic care , n orice etap a procesului de vi - vis reprezint creterea n schimbul de ateptat din cauza de a intra n sistemul de stat i , mai degrab dect ntr-o stare standard este . Acest lucru este vzut prin luarea n considerare vin - VISN = vi - vis + ng - ng sau vin - VISN = vi - vis , independent de n . De acum nainte va fi convenabil pentru a apela valori tranzitorii relativeal VI-lea ( n raport cu starea standard este pentru care v este este stabilit arbitrar la zero) , aceste cantiti vor fi numit pur i simplu valori n situaiile n care pot aprea nici o ambiguitate . Unde qi=..... este randamentul ateptat de la o singur tranziie n stare i. Astfel, soluia acestor ecuatii depinde doar de N valori ale lui qi i de matricea N cu N [Pij]. Avnd n vedere c qi si PIJ sunt funcii numai ale metodei, avem acum un sistem de ecuaii care genereaz g si tranzitia relativa a lui vi referitoare la o metod speciala. S le numim generarea de ctig i valoarea n cadrul unei metode de determinare.

Tra Ducere

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tra Ducere

Încărcat de

Drepturi de autor:

Formate disponibile

Se prezint o metod de rezolvare a proceselor decizionale secveniale de lung durat.

S-ar putea să vă placă și