Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
大模型(LLMs)增量預(yù)訓(xùn)練篇 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-04-18 10:31:46
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

大模型(LLMs)增量預(yù)訓(xùn)練篇  PDF 下載    圖1

 

 

資料內(nèi)容:

 

1. 為什么要增量預(yù)訓(xùn)練?
有一種觀點(diǎn),預(yù)訓(xùn)練學(xué)知識(shí),指令微調(diào)學(xué)格式,強(qiáng)化學(xué)習(xí)對(duì)齊人類偏好,LIMA等論文算是這一觀點(diǎn)的證據(jù)。
所以要想大模型有領(lǐng)域知識(shí),得增量預(yù)訓(xùn)練。(靠指令微調(diào)記知識(shí)不靠譜,不是幾十w條數(shù)據(jù)能做到的。)
 
2. 進(jìn)行 增量預(yù)訓(xùn)練 需要做哪些準(zhǔn)備工作?
1. 模型底座選型
主流是LLaMA,因?yàn)?/span>scaling法則,可能LLaMA做了充分預(yù)訓(xùn)練。(當(dāng)然有版權(quán)問題)
這里備選BLOOM,感覺基座比LLaMA差,但是也有7B版本。
Falcon、CPM-bee、AquilaBaichuan待實(shí)驗(yàn),license友好,但生態(tài)和效果都是問題。其實(shí),因?yàn)榻Y(jié)構(gòu)上都類
LLaMA,未來估計(jì)會(huì)出現(xiàn)整合這些模型的項(xiàng)目。
Falcon公布的訓(xùn)練語料中沒有中文)
這里沒列ChatGLMChatGLM2,因?yàn)橛蟹N說法在SFT模型上增量預(yù)訓(xùn)練效果比較差。(未證實(shí))
這里最經(jīng)典的開源預(yù)訓(xùn)練數(shù)據(jù)還是wudao200Gthepile這兩個(gè)數(shù)據(jù)集(懷念一下Open-Llama
加起來有1T的文本量,足夠前期玩耍了。
其實(shí),剛開始實(shí)踐的時(shí)候,不需要太多樣本,先收集GB量級(jí)的領(lǐng)域文本跑通流程即可。
當(dāng)然這里數(shù)據(jù)治理可能是chatgpt魔法的最關(guān)鍵的部分,最基礎(chǔ)的是把網(wǎng)頁爬取數(shù)據(jù)中的廣告清理掉。
Falcon論文里介紹了數(shù)據(jù)清洗的手段,對(duì)于我們很有參考意義。