国产高中生白皙在线免费观看,伊人大香线蕉影院在线播放,国产一区二区精品在线

基于lora的llama2二次預(yù)訓(xùn)練 PDF 下載

匿名網(wǎng)友發(fā)布于：2025-04-19 10:09:43

(侵權(quán)舉報)

(假如點擊沒反應(yīng)，多刷新兩次就OK！)

基于lora的llama2二次預(yù)訓(xùn)練 PDF 下載圖1

資料內(nèi)容：

一、為什么需要對 llama2 做基于lora的二次預(yù)訓(xùn)練?

加入中文訓(xùn)練語料進(jìn)行llama2的二次預(yù)訓(xùn)練，這樣模型就可以增加支持中文輸出的能力。

二、基于lora的llama2二次預(yù)訓(xùn)練的目標(biāo)是什么？

在保持預(yù)訓(xùn)練模型權(quán)重不變的情況下，通過添加額外的網(wǎng)絡(luò)層并僅訓(xùn)練這些新增的網(wǎng)絡(luò)層參數(shù)，實現(xiàn)大模型的高

效微調(diào)（peft）。

三、基于lora的llama2二次預(yù)訓(xùn)練的思想是什么？

思想：基于對模型本征維度（intrinsic dimension）的理解。

“本征維度”是指模型中真正有用的、能夠影響模型輸出的參數(shù)數(shù)量。

Aghajanyan研究發(fā)現(xiàn)，預(yù)訓(xùn)練模型的內(nèi)在維度實際上非常小，即只有一小部分參數(shù)對模型輸出有顯著影響。就是

存在一個極低維度的參數(shù)，微調(diào)它和在全參數(shù)空間中微調(diào)能起到相同的效果

LORA假設(shè)模型在任務(wù)適配過程中權(quán)重的改變量是低秩（low rank）

W=W0+ΔW，ΔW=BA

參數(shù)更新范圍：只訓(xùn)練新增的網(wǎng)絡(luò)層參數(shù)