簡単なまとめ
- logical reasoning に対するChatGPT, GPT-4の性能を検証した論文。
- 法科大学院の試験など、logical reasoningのテストから収集された有名なデータセット (LogiQAやReClorなど) において、ChatGPT, GPT-4は既存のモデル(RoBERTa)と比較して高いパフォーマンスを示した。
- 一方で、2022年に公開されたデータセットであるAR-LSATや、著者が作成したout-of-distributionなデータセット LogiQA 2.0 out-of-distribution に対してはGPT-4の性能低下が顕著である。
用語や実験結果について
Logical reasoningとは?
以下のようなタスクが代表的なlogical reasoning。
- multi-choice reading comprehension (複数の選択肢から文章の要約を当てる問題)
- natural language inference (hypothesisとpremiseの間の論理関係を決定する問題, 典型的にはtext classification)
多くのデータセットはこれらのタスクを対象としている。
GPT-4とRoBERTaの性能比較
- RoBERTaの正解率が30~50%程度である一方、GPT-4は50~90%程度の正解率を示した。
- タスクに対する正解率から考えると、multi-choice reading comprehensionとnatural language inferenceを比較すると、言語処理モデルにとってはnatural language inferenceの方が難しいタスクだと考えられる。
- AR-LSATやLogiQA 2.0 out-of-distribution などのデータセットに対して、GPT-4の正解率は20%程度まで低下。
- Chain-of-ThoughtなどのプロンプトエンジニアリングによってGPT-4の性能を改善することが可能。
- ベースラインと比較してGPT-4の性能はかなり高いが、logical reasoningは学習モデルにとってまだ難しいタスクだと考えられる。
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント