NVIDIAがLlama3.1の圧縮版モデルを公開
Qwen2, Apple FM, Gemma2, Llama3.1の前処理・学・後処理についてまとめられた記事
https://magazine.sebastianraschka.com/p/new-llm-pre-training-and-post-training
大規模言語モデル入門の続編が出版予定
https://gihyo.jp/book/2024/978-4-297-14393-0
Sakana AI, AI Scientistを発表
https://github.com/SakanaAI/AI-Scientist
その他最近知った情報
Transformerのアテンションはカーネル法として解釈できる
EMNLP 2019: https://arxiv.org/abs/1908.11775
KV cacheの量子化について
https://huggingface.co/blog/kv-cache-quantization
PagedAttentionによる高速推論
https://blog.vllm.ai/2023/06/20/vllm.html
サーバーでLLMに対する多数のリクエストを捌く方法
https://backprop.co/environments/vllm
量子最適化アルゴリズムに関するまとめ
https://arxiv.org/abs/2408.07086
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント