トップ > シミュレーションとは > 強化学習

強化学習

シミュレーションでシステムを最適化するには、システムのパラメータだけではなく意思決定のルールを最適化する事も重要なファクターです。 ここでいう意思決定のルールとは、例えば渋滞を減らす為の信号制御ルールや、待ち時間を減らす為にオペレータへ問い合わせを振り分けるルール、仕掛り品を減らす為の機械への最適な割り当てルール、 欠品をなるべく減らす為の最適な在庫管理ルールなどです。

強化学習とはこのような意思決定ルールを最適化する手法の一つで、意思決定者が未知の 環境中で逐次的に環境の観測と意思決定(行動)を繰り返していきながら、即時報酬と呼ばれる観測ごとに与えられる報酬値の割引和を最大化するような行動のルールを推定する機械学習手法です。

強化学習の流れ

強化学習の流れ

強化学習はマルコフ決定過程によって定式化されます。シミュレーションによる強化学習の場合には、マルコフ決定過程での環境はシミュレーションモデルそのものが対応し、 状態観測値と即時報酬値は、シミュレーションモデルの状態から求まる値となります。また、行動を取った場合の環境への影響は強化学習機能によって提案された行動値をもとに行動した結果となります。 強化学習の手法は様々ありますが、S4 Simulation System では、行動を行いながら学習するオンライン型の手法を搭載しています。具体的には、Q 学習、Sarsa (λ)、MonteCarlo 学習、GQ (λ)や、 Actor-Critic、Natural Actor-Critic といった手法を搭載しています。 また、方策については ε-greedy と softmax 方策を用意しており、これらから選択できます。方策の表現手法としては、表形式に加えて、Neural Net と Hash Tile Coding を選択できます。


参考文献
成瀬俊輔,雪島正敏 「S4 Simulation System の開発 5 意思決定を含むモデルの強化学習による最適化」
日本オペレーションズ・リサーチ学会 2015年春季研究発表会アブストラクト集(2015)