単一ポリシー更新

LIMID は,単一ポリシー更新(SPU)によって解かれます. SPU は,1度に1つのポリシーを更新し,すべてのポリシーが収束すると(すなわち,それ以上繰り返しが変化をもたらさない)終了する繰り返しアルゴリズムです.通常,このアルゴリズムは,全体的な最適ポリシーを見つけますが,アルゴリズムがローカル・マキシマムから抜け出せなくなる可能性があります. 

決定ノードのために指定された親は,決定がなされるときにどのオブザベーションが考慮されるべきかを決定します.理想的には,我々はすべてのオブザベーションを考慮に入れるように指定するでしょうが,これは実用的ではないかもしれません.なぜなら,ポリシー表のサイズが親の数によって指数的に拡大するからです.したがって,我々は,ポリシー表のサイズを削減するために,決定ノードの親として重要でないオブザベーション(たとえば,古いオブザベーションは通常,新しいオブザベーションより重要性が低い)を指定からよく外します .

すべての関連する情報が親として指定されていない限り,新しい情報が利用可能になればいつでも,ポリシーを再計算するのに便利でしょう.これは,ポリシーが計算されるとき,計算が(決定ノードの親として指定された未来のオブザベーションに加えて)存在するすべてのオブザベーションを考慮に入れるからです.

エビデンスの伝播と事後分布の計算は,最新の単一ポリシー更新によって計算される戦略のもと(または単一ポリシー更新が実行されなかった場合は,ユーザーが指定した初期戦略のもと)に実行されます.SPU は,入力されたエビデンスが伝播されたことを仮定します.

SPU アルゴリズムは,LIMID内の各確率ノードと決定ノードのステートでの確率分布と期待効用を計算します.

単一ポリシー更新は,実行モードツールバーの 'SPU' ボタンを押して呼び出されます.

図 1: 実行モードツールバーのSPUボタン.

Back