Python知識分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
Attention 升級面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-03-27 10:11:09
(侵權(quán)舉報)
(假如點擊沒反應(yīng),多刷新兩次就OK!)

Attention 升級面 PDF 下載 圖1

 

 

資料內(nèi)容:

 

 

1 傳統(tǒng) Attention 存在哪些問題?
1. 傳統(tǒng) Attention 存在 上下文長度 約束問題;
2. 傳統(tǒng) Attention 速度慢,內(nèi)存占用大;
 
2 Attention 優(yōu)化方向
1. 提升上下文長度
2. 加速、減少內(nèi)存占用
 
3 Attention 變體有哪些?
稀疏 attention。將稀疏偏差引入 attention 機制可以降低了復(fù)雜性;
線性化 attention。解開 attention 矩陣與內(nèi)核特征圖,然后以相反的順序計算 attention 以實現(xiàn)線性復(fù)雜度;
原型和內(nèi)存壓縮。這類方法減少了查詢或鍵值記憶對的數(shù)量,以減少注意力矩陣的大?。?
低階 self-Attention。這一系列工作捕獲了 self-Attention 的低階屬性;
• Attention 與先驗。該研究探索了用先驗 attention 分布來補充或替代標(biāo)準 attention
改進多頭機制。該系列研究探索了不同的替代多頭機制。
 
4 Multi-Query Attention
4.1 Multi-head Attention 存在什么問題?
訓(xùn)練過程:不會顯著影響訓(xùn)練過程,訓(xùn)練速度不變,會引起非常細微的模型效果損失;
推理過程:反復(fù)加載 巨大 的 KV cache , 導(dǎo)致 內(nèi)存開銷大,性能是內(nèi)存受限;
 
4.2 介紹一下 Multi-Query Attention?
Multi-Query Attention 在所有注意力頭上 共享 key value.