Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
北京大學(xué) DeepSeek-R1及類強(qiáng)推理模型開發(fā)解讀 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-03-11 10:24:17
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

北京大學(xué) DeepSeek-R1及類強(qiáng)推理模型開發(fā)解讀  PDF 下載 圖1

 

資料內(nèi)容:

 

 

冷啟動(dòng) Cold Start
? 數(shù)據(jù)準(zhǔn)備:few-shot long cot data, 詳細(xì)帶反思和驗(yàn)證的數(shù)據(jù)集
? 雙重驗(yàn)證:由人類注釋者和 R1-zero 生成的高質(zhì)量鏈?zhǔn)剿伎?
Chain-of-Thought, CoT)數(shù)據(jù),部分樣本長度達(dá)到 10,000 Token
? 成效:提供一些 Human Prior \ 顯著提升了語言的語義連貫性、可
讀性和基本推理能力。
 
? 推理為中心RL Reasoning-Oriented RL
? 增加了大規(guī)模的RL訓(xùn)練過程:DeepSeek-R1 Zero 基本一致,主
要是提升Reasoning的能力,包括coding \ mathematics \ logic
reasoning 等帶有明確解答過程的問題
? 語言一致性獎(jiǎng)勵(lì):引入 language consistency reward 衡量長推理鏈
可讀性(通過計(jì)算CoT過程中目標(biāo)語言的占比)
? 推理準(zhǔn)確率獎(jiǎng)勵(lì):結(jié)合 accuracy of reasoning tasks and reward for
language consistency
? 成效:通過 GRPO ,模型在 AIME 2024 等數(shù)學(xué)基準(zhǔn)上取得了顯著
提升,pass@1 15.6% 提高到 71.0%。此外,模型能夠自發(fā)延長
推理鏈條,展現(xiàn)出更強(qiáng)的邏輯連貫性。