気になったLLM関連情報 (2024/08/10-2024/08/17)

NVIDIAがLlama3.1の圧縮版モデルを公開

Qwen2, Apple FM, Gemma2, Llama3.1の前処理・学・後処理についてまとめられた記事

https://magazine.sebastianraschka.com/p/new-llm-pre-training-and-post-training

大規模言語モデル入門の続編が出版予定

https://gihyo.jp/book/2024/978-4-297-14393-0

Sakana AI, AI Scientistを発表

https://github.com/SakanaAI/AI-Scientist

その他最近知った情報

Transformerのアテンションはカーネル法として解釈できる

EMNLP 2019: https://arxiv.org/abs/1908.11775

KV cacheの量子化について

https://huggingface.co/blog/kv-cache-quantization

PagedAttentionによる高速推論

https://blog.vllm.ai/2023/06/20/vllm.html

サーバーでLLMに対する多数のリクエストを捌く方法

https://backprop.co/environments/vllm

量子最適化アルゴリズムに関するまとめ

https://arxiv.org/abs/2408.07086

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事

コメント

この記事へのコメントはありません。

CAPTCHA