資料內(nèi)容:
冷啟動(dòng) Cold Start
? 數(shù)據(jù)準(zhǔn)備:few-shot long cot data, 詳細(xì)帶反思和驗(yàn)證的數(shù)據(jù)集
? 雙重驗(yàn)證:由人類注釋者和 R1-zero 生成的高質(zhì)量鏈?zhǔn)剿伎?
(Chain-of-Thought, CoT)數(shù)據(jù),部分樣本長度達(dá)到 10,000 Token
? 成效:提供一些 Human Prior \ 顯著提升了語言的語義連貫性、可
讀性和基本推理能力。
? 推理為中心RL Reasoning-Oriented RL
? 增加了大規(guī)模的RL訓(xùn)練過程:和DeepSeek-R1 Zero 基本一致,主
要是提升Reasoning的能力,包括coding \ mathematics \ logic
reasoning 等帶有明確解答過程的問題
? 語言一致性獎(jiǎng)勵(lì):引入 language consistency reward 衡量長推理鏈
可讀性(通過計(jì)算CoT過程中目標(biāo)語言的占比)
? 推理準(zhǔn)確率獎(jiǎng)勵(lì):結(jié)合 accuracy of reasoning tasks and reward for
language consistency
? 成效:通過 GRPO ,模型在 AIME 2024 等數(shù)學(xué)基準(zhǔn)上取得了顯著
提升,pass@1 從 15.6% 提高到 71.0%。此外,模型能夠自發(fā)延長
推理鏈條,展現(xiàn)出更強(qiáng)的邏輯連貫性。