トップ > 数理計画用語集 > 強化学習

数理計画用語集

強化学習

読み:きょうかがくしゅう
英名:Reinforcement Learning

強化学習とは最適な意思決定ルールを得る手法の一つで意思決定者が未知の環境下で逐次的にシステムの観測と意思決定を繰り返していきながら「報酬」を最大化するような行動のルールを推定する手法である[1].

強化学習においては「エージェント」と「環境」が設定される.環境には「状態」があり,状態に応じてエージェントは「行動」を決定する.エージェントの行動によって環境の状態は更新され,エージェントは報酬(即時報酬)を得る.報酬を長期的観点から最大化されるようなエージェントの行動ルールを推定するのが強化学習である.

強化学習は近年深層学習と組み合わせることにより発展が進みゲームを初め様々な応用分野がある[2].最適化への応用としては,巡回セールスマン問題への応用[3] やグラフ上の組合せ最適化問題への応用[4]がある.最適化ソルバへの応用としては分枝変数選択[5]や切除平面選択[6]などへの適用の研究が進んでいる.

[参考]
[1] NTT データ数理システム「強化学習」 https://www.msi.co.jp/s4/introduction/reinforcement.html
[2] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I.,Wierstra, D., & Riedmiller, M. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.
[3] Bello, I., Pham, H., Le, Q. V., Norouzi, M., & Bengio, S. (2016). Neural combinatorial optimization with reinforcement learning. arXiv preprint arXiv:1611.09940.
[4] Khalil, Elias, et al. "Learning combinatorial optimization algorithms over graphs." Advances in Neural Information Processing Systems. 2017.
[5] Khalil, Elias Boutros, et al. "Learning to branch in mixed integer programming." Thirtieth AAAI Conference on Artificial Intelligence. 2016.
[6] Tang, Yunhao, Shipra Agrawal, and Yuri Faenza. "Reinforcement learning for integer programming: Learning to cut." arXiv preprint arXiv:1906.04859 (2019).