キーワード索引

強化学習

  • P-2-34A
    石倉 圭悟 (東京電機大学大学院)
    横須賀 天臣 (東京電機大学大学院)
    中村 紘子 (日本学術振興会, 東京電機大学)
    高橋 達二 (東京電機大学)
    本研究では同期待値で試行回数が異なる選択肢の選好を問う二者択一課題において, 試行回数が人間の選択に与える影響について検討した. 本研究の参加者はスロットマシンの期待値が小さい時は試行回数が少ない選択肢を, 大きい時は試行回数の多い選択肢を選好した. また, 実験結果から RS モデル, Q 学習モデル, IBL モデルのパラメータ推定し, モデルの予測と実験結果の比較を行った.その結果, Q 学習モデルの予測が最も良い結果を示した.
  • P-3-3A
    横須賀 天臣 (東京電機大学大学院)
    高橋 達二 (東京電機大学)
    認知的満足化モデルは目的に応じた希求水準を満たすかにより、探索と活用のバランスを調整し、多腕バンディット問題において有効に働く。本研究では、4個の選択肢からなるベルヌーイ・バンディット問題における認知的満足化と Softmax による選択行動について、最尤推定によるパラメータのリカバリ性能を確認した。また、行動実験によるモデルの比較を行った。その結果、全モデルでパラメータのリカバリが確認され、データに適合する際の性質が明らかになった。