キーワード索引
バンディット問題
-
P-3-3A認知的満足化モデルは目的に応じた希求水準を満たすかにより、探索と活用のバランスを調整し、多腕バンディット問題において有効に働く。本研究では、4個の選択肢からなるベルヌーイ・バンディット問題における認知的満足化と Softmax による選択行動について、最尤推定によるパラメータのリカバリ性能を確認した。また、行動実験によるモデルの比較を行った。その結果、全モデルでパラメータのリカバリが確認され、データに適合する際の性質が明らかになった。