資料內(nèi)容:
分布式訓(xùn)練框架選擇?
多用 DeepSpeed,少用 Pytorch 原生的 torchrun。在節(jié)點數(shù)量較少的情況下,使用何種訓(xùn)練框架并不是特別重
要;然而,一旦涉及到數(shù)百個節(jié)點,DeepSpeed顯現(xiàn)出其強大之處,其簡便的啟動和便于性能分析的特點使其成
為理想之選。
LLMs 訓(xùn)練時 有哪些有用的建議?
1. 彈性容錯和自動重啟機制
大模型訓(xùn)練不是以往那種單機訓(xùn)個幾小時就結(jié)束的任務(wù),往往需要訓(xùn)練好幾周甚至好幾個月,這時候你就知道能
穩(wěn)定訓(xùn)練有多么重要。彈性容錯能讓你在機器故障的情況下依然繼續(xù)重啟訓(xùn)練;自動重啟能讓你在訓(xùn)練中斷之后
立刻重啟訓(xùn)練。畢竟,大模型時代,節(jié)約時間就是節(jié)約錢。