123,123

2024大模型訓(xùn)練數(shù)據(jù)白皮書 PDF 下載

匿名網(wǎng)友發(fā)布于：2025-12-11 08:27:32

(侵權(quán)舉報(bào))

(假如點(diǎn)擊沒反應(yīng)，多刷新兩次就OK！)

2024大模型訓(xùn)練數(shù)據(jù)白皮書 PDF 下載圖1

資料內(nèi)容：要

訓(xùn)練數(shù)據(jù)對大模型發(fā)展的重要性

業(yè)界認(rèn)為，算法、算力與數(shù)據(jù)，是支撐大模型發(fā)展的三大基石。更高質(zhì)量、更豐富的數(shù)據(jù)是以 GPT 為例的生
成式人工智能大模型成功的驅(qū)動(dòng)力。GPT 模型架構(gòu)從第 1 代到第 4 代均較為相似，而用來訓(xùn)練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質(zhì)
量卻有很大的不同。GPT-1 是由 4.8G 未過濾原始數(shù)據(jù)訓(xùn)練，GPT-2 是由經(jīng)人類過濾后的 40G 數(shù)據(jù)訓(xùn)練，GPT-3
是由從 45T 原始數(shù)據(jù)中過濾的 570G 數(shù)據(jù)訓(xùn)練，而 chatGPT/GPT-4 則是在該基礎(chǔ)上又加入了高質(zhì)量人類標(biāo)注。以
吳恩達(dá)（Andrew Ng）為代表的學(xué)者觀點(diǎn)認(rèn)為，人工智能是以數(shù)據(jù)為中心的，而不是以模型為中心。“有標(biāo)注的高
質(zhì)量數(shù)據(jù)才能釋放人工智能的價(jià)值，如果業(yè)界將更多精力放在數(shù)據(jù)質(zhì)量上，人工智能的發(fā)展會(huì)更快”。

模型訓(xùn)練所需的數(shù)據(jù)類型

數(shù)據(jù)作為大模型訓(xùn)練的基礎(chǔ)，它提供了大模型所必需的知識和信息。區(qū)別于以往搜索系統(tǒng)、個(gè)性化推薦等所需
的大量用戶行為和偏好數(shù)據(jù)，隨著技術(shù)的演進(jìn)，大模型所需的數(shù)據(jù)是對知識性內(nèi)容有強(qiáng)需求，是一種新的類型。
模型訓(xùn)練所需的數(shù)據(jù)類型

2.1　訓(xùn)練大語言模型的數(shù)據(jù)
大模型所需要的數(shù)據(jù)根據(jù)訓(xùn)練的階段有所不同。以 ChatGPT 為代表的大語言模型（LLM）為例，其訓(xùn)練過程
分為預(yù)訓(xùn)練（Pre-training）、監(jiān)督微調(diào)（SFT）、基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）三個(gè)階段，后兩部分又統(tǒng)稱為

熱門帖子推薦

相關(guān)帖子推薦

熱門標(biāo)簽推薦