資料內(nèi)容:
1 傳統(tǒng) Attention 存在哪些問題?
1. 傳統(tǒng) Attention 存在 上下文長度 約束問題;
2. 傳統(tǒng) Attention 速度慢,內(nèi)存占用大;
2 Attention 優(yōu)化方向
1. 提升上下文長度
2. 加速、減少內(nèi)存占用
3 Attention 變體有哪些?
稀疏 attention。將稀疏偏差引入 attention 機制可以降低了復(fù)雜性;
• 線性化 attention。解開 attention 矩陣與內(nèi)核特征圖,然后以相反的順序計算 attention 以實現(xiàn)線性復(fù)雜度;
• 原型和內(nèi)存壓縮。這類方法減少了查詢或鍵值記憶對的數(shù)量,以減少注意力矩陣的大?。?
• 低階 self-Attention。這一系列工作捕獲了 self-Attention 的低階屬性;
• Attention 與先驗。該研究探索了用先驗 attention 分布來補充或替代標(biāo)準 attention;
• 改進多頭機制。該系列研究探索了不同的替代多頭機制。
4 Multi-Query Attention 篇
4.1 Multi-head Attention 存在什么問題?
• 訓(xùn)練過程:不會顯著影響訓(xùn)練過程,訓(xùn)練速度不變,會引起非常細微的模型效果損失;
• 推理過程:反復(fù)加載 巨大 的 KV cache , 導(dǎo)致 內(nèi)存開銷大,性能是內(nèi)存受限;
4.2 介紹一下 Multi-Query Attention?
Multi-Query Attention 在所有注意力頭上 共享 key 和 value.