Python知識(shí)分享網(wǎng) - 專(zhuān)業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
大模型(LLMs)微調(diào)面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-04-01 09:57:43
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒(méi)反應(yīng),多刷新兩次就OK!)

大模型(LLMs)微調(diào)面 PDF 下載 圖1

 

 

資料內(nèi)容:

 

 

1. 如果想要在某個(gè)模型基礎(chǔ)上做全參數(shù)微調(diào),究竟需要多少顯
存?
一般 n B的模型,最低需要 16-20 n G的顯存。(cpu offload基本不開(kāi)的情況下)
vicuna-7B為例,官方樣例配置為 4*A100 40G,測(cè)試了一下確實(shí)能占滿(mǎn)顯存。(global batch size
128,max length 2048)當(dāng)然訓(xùn)練時(shí)用了FSDP、梯度累積、梯度檢查點(diǎn)等方式降顯存。
 
2. 為什么SFT之后感覺(jué)LLM傻了?
原版答案:
SFT的重點(diǎn)在于激發(fā)大模型的能力,SFT的數(shù)據(jù)量一般也就是萬(wàn)惡之源alpaca數(shù)據(jù)集的52k量級(jí),
相比于預(yù)訓(xùn)練的數(shù)據(jù)還是太少了。
如果抱著灌注領(lǐng)域知識(shí)而不是激發(fā)能力的想法,去做SFT的話,可能確實(shí)容易把LLM弄傻。
新版答案:
指令微調(diào)是為了增強(qiáng)(或解鎖)大語(yǔ)言模型的能力。
其真正作用:
指令微調(diào)后,大語(yǔ)言模型展現(xiàn)出泛化到未見(jiàn)過(guò)任務(wù)的卓越能力,即使在多語(yǔ)言場(chǎng)景下也能有不錯(cuò)表
現(xiàn) 。