気になったLLM関連情報 (2024/08/10-2024/08/17)
NVIDIAがLlama3.1の圧縮版モデルを公開https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/Q
NVIDIAがLlama3.1の圧縮版モデルを公開https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/Q
最近理論保証がある研究に関心があり、いくつか文献を調査しています。本記事はその中間まとめ的な役割の個人的なメモです。いくつかの文献を参考に、初歩的な事柄をまとめようと思います。注意点は以下の通りです。数式多めです。なるべく正確な記述を心がけていますが、誤りが含まれる場合もあります
openreview概要MITの学生らが中心として作成した論文研究成果の一部はNVIDIAでのインターン中に得られたもの事前学習された言語モデル (LM)をベースにファインチューニングすることで、Virtual HomeやBabyAIなどの複雑なタスクにおいて、優
arxiv概要Beihang University (中国)の研究者グループが提案adversarial training (AT)に現れなかったadversarial exampleに対する汎化性能 (adversarially robust generalizatio
openreview概要深層学習モデルのarchitectureとロバスト性の関連を検証した論文既存研究では、Transformerのアーキテクチャを用いた画像分類モデルはCNNよりもadversarial examplesやout-of-distribution sam
OpenAIから発表されたChat-GPT 及び GPT-4に関する情報や活用事例、関連する話題についてまとめるページです。随時更新します。基本的にリンクをまとめるページにする予定ですが、気が向いたらモデルの詳細についてもまとめるかもしれません。公式資料technical
NeurIPS 2021で発表された上記論文についてまとめます。論文の概要敵対的攻撃を行うために解く最適化問題は複雑なため、勾配ベースの手法は、たとえ攻撃対象のモデルがどのノルムに対して防御されているかわかっていたとしても、注意深くチューニング・初期化され、たくさんの反復を繰り返す
CVPR 2019で発表された、敵対的攻撃手法の論文についてまとめます。論文の概要摂動の大きさ(2ノルム)がなるべく小さい敵対的画像を生成するための手法を提案。当時最先端であったC&W attackの、反復回数が数千回必要だという課題を解決し、敵対的学習に使用できることを検
日本語の記事が少ないので書いてみました。敵対的攻撃の中でも、画像分類モデルに対する非線形最適化手法をベースにした攻撃手法について紹介します。深層学習モデルの脆弱性深層学習モデルは、Adversarial Exampleと呼ばれる入力に対して脆弱性を持っています。この事実は、Szeg
torchvisionのResizeを、OpenCV および PyTorch C++ API を使ってなるべく再現します。ここで紹介するのは、あくまでも「同じような操作」を行う方法なので、torchvisionと全く同じ前処理ができる訳ではないです。(PyTorch Forum)Pytho