資料內(nèi)容:
Layer normalization-方法篇
一、Layer Norm 篇
1.1 Layer Norm 的計算公式寫一下?
二、RMS Norm 篇 (均方根 Norm)
2.1 RMS Norm 的計算公式寫一下?
2.2 RMS Norm 相比于 Layer Norm 有什么特點?
RMS Norm 簡化了 Layer Norm ,去除掉計算均值進行平移的部分。
對比LN,RMS Norm的計算速度更快。效果基本相當(dāng),甚至略有提升。
三、Deep Norm 篇
3.1 Deep Norm 思路?
Deep Norm方法在執(zhí)行Layer Norm之前,up-scale了殘差連接 (alpha>1);另外,在初始化階段down-scale了模
型參數(shù)(beta<1)。
3.2 寫一下 Deep Norm 代碼實現(xiàn)?