資料內(nèi)容:
一、為什么需要 對 llama2 做 基于lora的二次預(yù)訓(xùn)練?
加入中文訓(xùn)練語料進行llama2的二次預(yù)訓(xùn)練,這樣模型就可以增加支持中文輸出的能力。
二、基于lora的llama2二次預(yù)訓(xùn)練 的目標是什么?
在保持預(yù)訓(xùn)練模型權(quán)重不變的情況下,通過添加額外的網(wǎng)絡(luò)層并僅訓(xùn)練這些新增的網(wǎng)絡(luò)層參數(shù),實現(xiàn)大模型的高
效微調(diào)(peft)。
三、基于lora的llama2二次預(yù)訓(xùn)練 的思想是什么?
思想:基于對模型本征維度(intrinsic dimension)的理解。
“本征維度”是指模型中真正有用的、能夠影響模型輸出的參數(shù)數(shù)量。
Aghajanyan研究發(fā)現(xiàn),預(yù)訓(xùn)練模型的內(nèi)在維度實際上非常小,即只有一小部分參數(shù)對模型輸出有顯著影響。就是
存在一個極低維度的參數(shù),微調(diào)它和在全參數(shù)空間中微調(diào)能起到相同的效果
LORA假設(shè)模型在任務(wù)適配過程中權(quán)重的改變量是低秩(low rank)
W=W0+ΔW,ΔW=BA
參數(shù)更新范圍:只訓(xùn)練新增的網(wǎng)絡(luò)層參數(shù)