キーワード索引

バンディット問題

  • P-3-3A
    横須賀 天臣 (東京電機大学大学院)
    高橋 達二 (東京電機大学)
    認知的満足化モデルは目的に応じた希求水準を満たすかにより、探索と活用のバランスを調整し、多腕バンディット問題において有効に働く。本研究では、4個の選択肢からなるベルヌーイ・バンディット問題における認知的満足化と Softmax による選択行動について、最尤推定によるパラメータのリカバリ性能を確認した。また、行動実験によるモデルの比較を行った。その結果、全モデルでパラメータのリカバリが確認され、データに適合する際の性質が明らかになった。