【論文メモ】Pre-Trained Language Models for Interactive Decision-Making (NeurIPS 2022)

openreview

概要

  • MITの学生らが中心として作成した論文
  • 研究成果の一部はNVIDIAでのインターン中に得られたもの
  • 事前学習された言語モデル (LM)をベースにファインチューニングすることで、Virtual HomeやBabyAIなどの複雑なタスクにおいて、優れた汎化性能を達成できることを示した。
    • 特に、学習データとは独立な分布に従うデータに対しても汎化する
  • 教師データを事前に用意しなくても学習できるよう、active data gathering procedureを提案
    • 全体としては失敗した試行でも、部分的には良い行動が含まれているとの洞察に基づき、データ収集の過程でre-labeingを行うことでうまくデータを収集する
    • Online RLと組み合わせることで、既存のOnline RL手法の性能を向上させることができる

手法

  • POMDPを仮定したPolicy learningに取り組む
  • policy initializerとして、自己回帰的なtransformerに基づく言語モデルに注目して検証する(論文では特に標準的なLMであるGPT-2を用いる)
  • モデルへの入力:アルファベットや記号を用いて表現された、状態や行動の履歴と、エージェントの目的
    • モデルはこれらを事前学習された単語埋め込み層を用いてトークン化する
    • VirtualHomeの場合
      • 過去の行動履歴はテンプレート化された英文の形で保存する
      • 行動はテンプレート化された英文の形式で入力する
      • 環境は物体の名前と3D座標として入力
  • 言語モデルは上記自然言語(実は自然言語じゃなくてもいいけど)を入力として受け取り、Context featureを出力する。context featureを全結合層に通して行動を選択する確率を出力する。
  • Active Data Gathering
    • Hindsight Experience Replay (HER)に基づいて、教師なしで学習データを収集する。
    • HERは行動空間や状態空間が小さい単純なタスク、かつ状態が完全に観測可能な状況を主な対象としている→本論文ではPartially Observableかつ複雑な場合に適用可能な方法を提案
    • LIDを使って上記課題を解決。LIDを用いたADGは以下を繰り返すことで行われる。
      • ランダムにタスクの目的を選択→現在のpolicyに基づいてactionを生成 / ランダムにactionを生成 (exploration)
      • 有用な部分的な行動列に基づいて、タスクの目的をrelabel (hindsight)
      • policyを更新 (policy update)

実験

  • VirtualHome, BabyAIに対して、
    • In-Distribution (学習データと同じ分布からサンプル)
    • Novel Scenes (変な場所にものが置かれていたりするデータ)
    • Novel Tasks (学習データとは異なる分布からサンプル)
      に対する汎化性能を検証。
  • LSTMやMLPを用いる場合と比較して、GPT-2を用いた場合の方がいずれの設定でもタスク成功率が高い。
  • 特に、Novel Scenes / Tasksに対する汎化性能が極めて高いという結果。
  • expert dataを用いない場合、提案手法LID-ADGのみがVirtualHomeのタスクを完了できた
  • 既存のonline RL手法のpolicy initializerとして、もしくはoffline RL手法のdata providerとしてLID-ADGを適用することで、LID-ADGが有効に機能することを確認した。

分析

  • 汎化性能がどこから生じているか理解するため、三つの観点から分析した
  • 入力をどのようにエンコードするか
    • 言語として意味がある形で自然言語としてエンコード (デフォルト)
    • 整数値のインデックスとしてエンコード
    • ランダムな自然言語の列としてエンコード
    • どのエンコード方法を用いても、性能に大きな影響は見られなかった
  • 入力を系列データにするか否か
    • 系列データにしない場合、Novel Tasksに対する汎化性能がほとんどなくなった
  • 事前学習モデルによってパラメーターを初期化するか否か
    • 事前学習なしの場合、In-Distributionに対するタスク成功率が向上したが、Novel Tasksに対する汎化性能が低下した。

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事

コメント

この記事へのコメントはありません。

CAPTCHA