資料內(nèi)容:
1. SFT(有監(jiān)督微調(diào))的數(shù)據(jù)集格式?
一問一答
2. RM(獎勵模型)的數(shù)據(jù)格式?
一個問題 + 一條好回答樣例 + 一條差回答樣例
3. PPO(強化學(xué)習(xí))的數(shù)據(jù)格式?
理論上來說,不需要新增數(shù)據(jù)。需要提供一些prompt,可以直接用sft階段的問。另外,需要限制
模型不要偏離原模型太遠(ptx loss),也可以直接用sft的數(shù)據(jù)。
4. 找數(shù)據(jù)集哪里找?
推薦Alpaca-COT,數(shù)據(jù)集整理的非常全,眼花繚亂。
5. 微調(diào)需要多少條數(shù)據(jù)?
取決于預(yù)訓(xùn)練數(shù)據(jù)和微調(diào)任務(wù)的數(shù)據(jù)分布是否一致,分布一致,100條就夠,分布差異大就需要多
些數(shù)據(jù),千條或者萬條以上為佳。
自己的任務(wù)復(fù)雜或者下游任務(wù)行業(yè)比較冷門,如藥品名稱識別任務(wù),則需要較多監(jiān)督數(shù)據(jù)。還有微
調(diào)大模型時,一遍是記不住的。100條的微調(diào)數(shù)據(jù),epochs=20才能穩(wěn)定擬合任務(wù)要求。
6. 有哪些大模型的訓(xùn)練集?
預(yù)訓(xùn)練數(shù)據(jù)集togethercomputer/RedPajama-Data-1T「紅睡衣」開源計劃總共包括三部分:
預(yù)訓(xùn)練數(shù)據(jù)集RedPajama-Data-1T已開源,包括七個子集,經(jīng)過預(yù)處理后得到的token數(shù)量大致可
以匹配Meta在原始LLaMA論文中報告的數(shù)量,并且數(shù)據(jù)預(yù)處理相關(guān)腳本也已開源。
完整的RedPajama-Data-1T數(shù)據(jù)集需要的存儲容量為壓縮后3TB,解壓后5TB。
CoT微調(diào)數(shù)據(jù)集:Alpaca-CoT 里面包括常用的alpaca,CoT等數(shù)據(jù)集,有中文的。
7. 進行領(lǐng)域大模型預(yù)訓(xùn)練應(yīng)用哪些數(shù)據(jù)集比較好?
通過分析發(fā)現(xiàn)現(xiàn)有的開源大模型進行預(yù)訓(xùn)練的過程中會加入數(shù)據(jù)、論文等數(shù)據(jù)。主要是因為這些數(shù)
據(jù)的數(shù)據(jù)質(zhì)量較高,領(lǐng)域相關(guān)性比較強,知識覆蓋率(密度)較大,可以讓模型更適應(yīng)考試。給我
• 高質(zhì)量、大規(guī)模、高覆蓋度的預(yù)訓(xùn)練數(shù)據(jù)集;
• 在預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練出的基礎(chǔ)模型;
• 指令調(diào)優(yōu)數(shù)據(jù)集和模型,比基本模型更安全、可靠。
掃碼加
查看更多們自己進行大模型預(yù)訓(xùn)練的時候提供了一個參考。同時領(lǐng)域相關(guān)的網(wǎng)站內(nèi)容、新聞內(nèi)容也是比較重
要的數(shù)據(jù)。