Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
大模型(LLMs)強(qiáng)化學(xué)習(xí)面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-04-20 17:39:09
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

大模型(LLMs)強(qiáng)化學(xué)習(xí)面 PDF 下載 圖1

 

 

資料內(nèi)容:

 

 

1 簡(jiǎn)單介紹強(qiáng)化學(xué)習(xí)?
強(qiáng)化學(xué)習(xí):(Reinforcement Learning)一種機(jī)器學(xué)習(xí)的方法,通過從外部獲得激勵(lì)來校正學(xué)習(xí)方向從而獲得一
種自適應(yīng)的學(xué)習(xí)能力。
 
2 簡(jiǎn)單介紹一下 RLHF
基于人工反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF):構(gòu)建人類反饋數(shù)據(jù)集,
訓(xùn)練一個(gè)激勵(lì)模型,模仿人類偏好對(duì)結(jié)果打分,這是GPT-3后時(shí)代大語言模型越來越像人類對(duì)話核心技術(shù)。
 
3. 獎(jiǎng)勵(lì)模型需要和基礎(chǔ)模型一致嗎?
不同實(shí)現(xiàn)方式似乎限制不同。(待實(shí)踐確認(rèn))colossal-aicoati中需要模型有相同的tokenizer,所以選模型只能
從同系列中找。在ppo算法實(shí)現(xiàn)方式上據(jù)說trlx是最符合論文的。
 
4. RLHF 在實(shí)踐過程中存在哪些不足?
1. 不足點(diǎn)1:人工產(chǎn)生的偏好數(shù)據(jù)集成本較高,很難量產(chǎn);
2. 不足點(diǎn)2:三個(gè)階段的訓(xùn)練(SFT->RM->PPO)過程較長(zhǎng),更新迭代較慢;
3. 不足點(diǎn)3PPO 的訓(xùn)練過程同時(shí)存在4個(gè)模型(2訓(xùn)練,2推理),對(duì)計(jì)算資源的要求較高。
 
5. 如何解決 人工產(chǎn)生的偏好數(shù)據(jù)集成本較高,很難量產(chǎn)問題?
該方法的核心在于通過AI 模型監(jiān)督其他 AI 模型,即在SFT階段,從初始模型中采樣,然后生成自我批評(píng)和修
正,然后根據(jù)修正后的反應(yīng)微調(diào)原始模型。 在 RL 階段,從微調(diào)模型中采樣,使用一個(gè)模型來評(píng)估生成的樣本,