資料內(nèi)容:
一、為什么 需要 適配器微調(diào)(Adapter-tuning)?
1. 預(yù)訓(xùn)練模型參數(shù)量變多,在特定任務(wù)下進(jìn)行全量微調(diào)即昂貴又耗時(shí);
二、適配器微調(diào)(Adapter-tuning)思路?
• 設(shè)計(jì)了Adapter結(jié)構(gòu)(首先是一個(gè)down-project層將高維度特征映射到低維特征,然后過一個(gè)非線形層之后,
再用一個(gè)up-project結(jié)構(gòu)將低維特征映射回原來的高維特征;同時(shí)也設(shè)計(jì)了skip-connection結(jié)構(gòu),確保了在最
差的情況下能夠退化為identity),并將其嵌入Transformer的結(jié)構(gòu)里面;
• 在訓(xùn)練時(shí),固定住原來預(yù)訓(xùn)練模型的參數(shù)不變,只對新增的Adapter結(jié)構(gòu)進(jìn)行微調(diào)。同時(shí)為了保證訓(xùn)練的高效
性(也就是盡可能少的引入更多參數(shù))。
三、 適配器微調(diào)(Adapter-tuning)特點(diǎn)是什么?
• 特點(diǎn):
• 通過在Transformer層中嵌入Adapter結(jié)構(gòu),在推理時(shí)會(huì)額外增加推理時(shí)長。
四、AdapterFusion 思路 是什么?