Qwen3をvllmでserveしたいのにできなかったときに確認すること
最初に以下のエラーが発生しましたValueError: The checkpoint you are trying to load has model type qwen3 but Transformers does not recognize this architecture. Thi
最初に以下のエラーが発生しましたValueError: The checkpoint you are trying to load has model type qwen3 but Transformers does not recognize this architecture. Thi
以前見かけたこちらのリポジトリ (tascj/offload_adam)を、huggingface/transformersに実装されているTrainerを用いたFSDPと併用してみる話です。リポジトリ作者様による解説はこちらのリンクを参照ください。本記事のまとめtascj/of
NVIDIAがLlama3.1の圧縮版モデルを公開https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/Q
最近理論保証がある研究に関心があり、いくつか文献を調査しています。本記事はその中間まとめ的な役割の個人的なメモです。いくつかの文献を参考に、初歩的な事柄をまとめようと思います。注意点は以下の通りです。数式多めです。なるべく正確な記述を心がけていますが、誤りが含まれる場合もあります
openreview概要MITの学生らが中心として作成した論文研究成果の一部はNVIDIAでのインターン中に得られたもの事前学習された言語モデル (LM)をベースにファインチューニングすることで、Virtual HomeやBabyAIなどの複雑なタスクにおいて、優
arxiv概要Beihang University (中国)の研究者グループが提案adversarial training (AT)に現れなかったadversarial exampleに対する汎化性能 (adversarially robust generalizatio
openreview概要深層学習モデルのarchitectureとロバスト性の関連を検証した論文既存研究では、Transformerのアーキテクチャを用いた画像分類モデルはCNNよりもadversarial examplesやout-of-distribution sam
OpenAIから発表されたChat-GPT 及び GPT-4に関する情報や活用事例、関連する話題についてまとめるページです。随時更新します。基本的にリンクをまとめるページにする予定ですが、気が向いたらモデルの詳細についてもまとめるかもしれません。公式資料technical
NeurIPS 2021で発表された上記論文についてまとめます。論文の概要敵対的攻撃を行うために解く最適化問題は複雑なため、勾配ベースの手法は、たとえ攻撃対象のモデルがどのノルムに対して防御されているかわかっていたとしても、注意深くチューニング・初期化され、たくさんの反復を繰り返す
CVPR 2019で発表された、敵対的攻撃手法の論文についてまとめます。論文の概要摂動の大きさ(2ノルム)がなるべく小さい敵対的画像を生成するための手法を提案。当時最先端であったC&W attackの、反復回数が数千回必要だという課題を解決し、敵対的学習に使用できることを検