資料內(nèi)容:
1. 如果想要在某個(gè)模型基礎(chǔ)上做全參數(shù)微調(diào),究竟需要多少顯
存?
一般 n B的模型,最低需要 16-20 n G的顯存。(cpu offload基本不開(kāi)的情況下)
vicuna-7B為例,官方樣例配置為 4*A100 40G,測(cè)試了一下確實(shí)能占滿(mǎn)顯存。(global batch size
128,max length 2048)當(dāng)然訓(xùn)練時(shí)用了FSDP、梯度累積、梯度檢查點(diǎn)等方式降顯存。
2. 為什么SFT之后感覺(jué)LLM傻了?
• 原版答案:
SFT的重點(diǎn)在于激發(fā)大模型的能力,SFT的數(shù)據(jù)量一般也就是萬(wàn)惡之源alpaca數(shù)據(jù)集的52k量級(jí),
相比于預(yù)訓(xùn)練的數(shù)據(jù)還是太少了。
如果抱著灌注領(lǐng)域知識(shí)而不是激發(fā)能力的想法,去做SFT的話,可能確實(shí)容易把LLM弄傻。
• 新版答案:
指令微調(diào)是為了增強(qiáng)(或解鎖)大語(yǔ)言模型的能力。
其真正作用:
指令微調(diào)后,大語(yǔ)言模型展現(xiàn)出泛化到未見(jiàn)過(guò)任務(wù)的卓越能力,即使在多語(yǔ)言場(chǎng)景下也能有不錯(cuò)表
現(xiàn) 。