資料內(nèi)容:
一、LoRA篇
1.1 什么是 LoRA?
• 介紹:通過(guò)低秩分解來(lái)模擬參數(shù)的改變量,從而以極小的參數(shù)量來(lái)實(shí)現(xiàn)大模型的間接訓(xùn)練。
1.2 LoRA 的思路是什么?
1. 在原模型旁邊增加一個(gè)旁路,通過(guò)低秩分解(先降維再升維)來(lái)模擬參數(shù)的更新量;
2. 訓(xùn)練時(shí),原模型固定,只訓(xùn)練降維矩陣A和升維矩陣B;
3. 推理時(shí),可將BA加到原參數(shù)上,不引入額外的推理延遲;
4. 初始化,A采用高斯分布初始化,B初始化為全0,保證訓(xùn)練開(kāi)始時(shí)旁路為0矩陣;
5. 可插拔式的切換任務(wù),當(dāng)前任務(wù)W0+B1A1,將lora部分減掉,換成B2A2,即可實(shí)現(xiàn)任務(wù)切換;
1.3 LoRA 的特點(diǎn)是什么?
• 將BA加到W上可以消除推理延遲;
• 可以通過(guò)可插拔的形式切換到不同的任務(wù);
• 設(shè)計(jì)的比較好,簡(jiǎn)單且效果好;
1.4 簡(jiǎn)單描述一下 LoRA?
LoRA的實(shí)現(xiàn)思想很簡(jiǎn)單,就是凍結(jié)一個(gè)預(yù)訓(xùn)練模型的矩陣參數(shù),并選擇用A和B矩陣來(lái)替代,在下游任務(wù)時(shí)只更
新A和B。