Python知識分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
增量預(yù)訓(xùn)練(Pretrain)樣本拼接篇 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-04-19 10:08:35
(侵權(quán)舉報)
(假如點擊沒反應(yīng),多刷新兩次就OK!)

增量預(yù)訓(xùn)練(Pretrain)樣本拼接篇 PDF 下載 圖1

 

 

資料內(nèi)容:

 

 

一、Pretrain階段,為什么需要拼接拼接?
為了提高pretrain效率、拓展LLM最大長度,隨機將若干條短文本進行拼接是pretrain階段常見手
段。
 
二、有哪些 拼接方式?
2.1 拼接方式一:Random Concatenate
隨機將短文本 {examples_i} 拼接成 {examples_k} 以打滿maxLenpretrain的常見手段,該方法不
僅能夠降低padding占比、提高訓(xùn)練效率,還能使LLM具備更好的長文本處理能力。
但筆者認為,絕大多數(shù)情況下構(gòu)成 Example 的多個 examples 彼此互不相關(guān),無法提供有效的上
下文信息,LLM自然也無法從拓寬的窗口中獲得反饋。甚至,在語料較少、分布比較集中時,LLM
很有可能從多次、偶然的(因拼接導(dǎo)致的)噪音共現(xiàn)中擬合到錯誤的特征。當(dāng)然,如果語料足夠
多、分布足夠廣,LLM仍能通過足夠的contrastive,逐漸聚焦于 examples 本身而非其他無關(guān)
examples 。此外,也有一些使用specialToken examples 進行軟隔離的方案,但沒有額外的正
則手段時,使用specialToken進行隔離或許只是雞生蛋、蛋生雞的死循環(huán)。