123,123

大模型（LLMs）強(qiáng)化學(xué)習(xí)——RLHF及其變種面 PDF 下載

匿名網(wǎng)友發(fā)布于：2025-04-21 09:49:36

(侵權(quán)舉報(bào))

(假如點(diǎn)擊沒(méi)反應(yīng)，多刷新兩次就OK！)

大模型（LLMs）強(qiáng)化學(xué)習(xí)——RLHF及其變種面 PDF 下載圖1

資料內(nèi)容：

一、介紹一下 LLM的經(jīng)典預(yù)訓(xùn)練Pipeline？

目前基于Transformer decoder的LLM，比如ChatGPT、LLaMA、baichuan等，通常都會(huì)有基于預(yù)訓(xùn)練的base模

型和在base模型至少使用RLHF微調(diào)的Chat模型，Chat模型的訓(xùn)練一般都包括如下三個(gè)步驟：預(yù)訓(xùn)練，有監(jiān)督微

調(diào)和對(duì)齊。

1. 在預(yù)訓(xùn)練階段，模型會(huì)從大量無(wú)標(biāo)注文本數(shù)據(jù)集中學(xué)習(xí)通用知識(shí)；

2. 使用「有監(jiān)督微調(diào)」（SFT）優(yōu)化模型以更好地遵守特定指令；

3. 使用對(duì)齊技術(shù)使LLM可以更有用且更安全地響應(yīng)用戶(hù)提示。

二、預(yù)訓(xùn)練（Pre-training）篇

2.1 具體介紹一下預(yù)訓(xùn)練（Pre-training）？

預(yù)訓(xùn)練（Pre-training）：利用數(shù)十億到數(shù)萬(wàn)億個(gè)token的龐大文本語(yǔ)料庫(kù) 對(duì)模型繼續(xù) 預(yù)訓(xùn)練，使模型能夠根據(jù)

提供的文本來(lái)預(yù)測(cè)「下一個(gè)單詞」。

三、有監(jiān)督微調(diào)（Supervised Tinetuning）篇

3.1 具體介紹一下有監(jiān)督微調(diào)（Supervised Tinetuning）？

有監(jiān)督微調(diào)（Supervised Tinetuning）:雖然 SFT 訓(xùn)練目標(biāo)和預(yù)訓(xùn)練（Pre-training）類(lèi)似，也是需要模型預(yù)測(cè)

「下一個(gè)單詞」，但是需要人工標(biāo)注的指令數(shù)據(jù)集，其中模型的輸入是一個(gè)指令（根據(jù)任務(wù)的不同，也可能包含

一段輸入文本），輸出為模型的預(yù)期回復(fù)內(nèi)容