
資料內(nèi)容:要
訓(xùn)練數(shù)據(jù)對大模型發(fā)展的重要性
業(yè)界認(rèn)為,算法、算力與數(shù)據(jù),是支撐大模型發(fā)展的三大基石。更高質(zhì)量、更豐富的數(shù)據(jù)是以 GPT 為例的生
成式人工智能大模型成功的驅(qū)動(dòng)力。GPT 模型架構(gòu)從第 1 代到第 4 代均較為相似,而用來訓(xùn)練數(shù)據(jù)的數(shù)據(jù)規(guī)模和質(zhì)
量卻有很大的不同。GPT-1 是由 4.8G 未過濾原始數(shù)據(jù)訓(xùn)練,GPT-2 是由經(jīng)人類過濾后的 40G 數(shù)據(jù)訓(xùn)練,GPT-3
是由從 45T 原始數(shù)據(jù)中過濾的 570G 數(shù)據(jù)訓(xùn)練,而 chatGPT/GPT-4 則是在該基礎(chǔ)上又加入了高質(zhì)量人類標(biāo)注。以
吳恩達(dá)(Andrew Ng)為代表的學(xué)者觀點(diǎn)認(rèn)為,人工智能是以數(shù)據(jù)為中心的,而不是以模型為中心。“有標(biāo)注的高
質(zhì)量數(shù)據(jù)才能釋放人工智能的價(jià)值,如果業(yè)界將更多精力放在數(shù)據(jù)質(zhì)量上,人工智能的發(fā)展會(huì)更快”。
模型訓(xùn)練所需的數(shù)據(jù)類型
數(shù)據(jù)作為大模型訓(xùn)練的基礎(chǔ),它提供了大模型所必需的知識和信息。區(qū)別于以往搜索系統(tǒng)、個(gè)性化推薦等所需
的大量用戶行為和偏好數(shù)據(jù),隨著技術(shù)的演進(jìn),大模型所需的數(shù)據(jù)是對知識性內(nèi)容有強(qiáng)需求,是一種新的類型。
模型訓(xùn)練所需的數(shù)據(jù)類型
2.1 訓(xùn)練大語言模型的數(shù)據(jù)
大模型所需要的數(shù)據(jù)根據(jù)訓(xùn)練的階段有所不同。以 ChatGPT 為代表的大語言模型(LLM)為例,其訓(xùn)練過程
分為預(yù)訓(xùn)練(Pre-training)、監(jiān)督微調(diào)(SFT)、基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)三個(gè)階段,后兩部分又統(tǒng)稱為