概要
- MITの学生らが中心として作成した論文
- 研究成果の一部はNVIDIAでのインターン中に得られたもの
- 事前学習された言語モデル (LM)をベースにファインチューニングすることで、Virtual HomeやBabyAIなどの複雑なタスクにおいて、優れた汎化性能を達成できることを示した。
- 特に、学習データとは独立な分布に従うデータに対しても汎化する
- 教師データを事前に用意しなくても学習できるよう、active data gathering procedureを提案
- 全体としては失敗した試行でも、部分的には良い行動が含まれているとの洞察に基づき、データ収集の過程でre-labeingを行うことでうまくデータを収集する
- Online RLと組み合わせることで、既存のOnline RL手法の性能を向上させることができる
手法
- POMDPを仮定したPolicy learningに取り組む
- policy initializerとして、自己回帰的なtransformerに基づく言語モデルに注目して検証する(論文では特に標準的なLMであるGPT-2を用いる)
- モデルへの入力:アルファベットや記号を用いて表現された、状態や行動の履歴と、エージェントの目的
- モデルはこれらを事前学習された単語埋め込み層を用いてトークン化する
- VirtualHomeの場合
- 過去の行動履歴はテンプレート化された英文の形で保存する
- 行動はテンプレート化された英文の形式で入力する
- 環境は物体の名前と3D座標として入力
- 言語モデルは上記自然言語(実は自然言語じゃなくてもいいけど)を入力として受け取り、Context featureを出力する。context featureを全結合層に通して行動を選択する確率を出力する。
- Active Data Gathering
- Hindsight Experience Replay (HER)に基づいて、教師なしで学習データを収集する。
- HERは行動空間や状態空間が小さい単純なタスク、かつ状態が完全に観測可能な状況を主な対象としている→本論文ではPartially Observableかつ複雑な場合に適用可能な方法を提案
- LIDを使って上記課題を解決。LIDを用いたADGは以下を繰り返すことで行われる。
- ランダムにタスクの目的を選択→現在のpolicyに基づいてactionを生成 / ランダムにactionを生成 (exploration)
- 有用な部分的な行動列に基づいて、タスクの目的をrelabel (hindsight)
- policyを更新 (policy update)
実験
- VirtualHome, BabyAIに対して、
- In-Distribution (学習データと同じ分布からサンプル)
- Novel Scenes (変な場所にものが置かれていたりするデータ)
- Novel Tasks (学習データとは異なる分布からサンプル)
に対する汎化性能を検証。
- LSTMやMLPを用いる場合と比較して、GPT-2を用いた場合の方がいずれの設定でもタスク成功率が高い。
- 特に、Novel Scenes / Tasksに対する汎化性能が極めて高いという結果。
- expert dataを用いない場合、提案手法LID-ADGのみがVirtualHomeのタスクを完了できた
- 既存のonline RL手法のpolicy initializerとして、もしくはoffline RL手法のdata providerとしてLID-ADGを適用することで、LID-ADGが有効に機能することを確認した。
分析
- 汎化性能がどこから生じているか理解するため、三つの観点から分析した
- 入力をどのようにエンコードするか
- 言語として意味がある形で自然言語としてエンコード (デフォルト)
- 整数値のインデックスとしてエンコード
- ランダムな自然言語の列としてエンコード
- どのエンコード方法を用いても、性能に大きな影響は見られなかった
- 入力を系列データにするか否か
- 系列データにしない場合、Novel Tasksに対する汎化性能がほとんどなくなった
- 事前学習モデルによってパラメーターを初期化するか否か
- 事前学習なしの場合、In-Distributionに対するタスク成功率が向上したが、Novel Tasksに対する汎化性能が低下した。
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント