資料內(nèi)容:
2.1 Transformer 架構(gòu)
Transformer 架構(gòu)[13]是目前語言大模型采用的主流架構(gòu)[5],其基
于自注意力機制(Self-attention Mechanism)模型。其主要思想是通過自
注意力機制獲取輸入序列的全局信息,并將這些信息通過網(wǎng)絡(luò)層進行
傳遞。標準的 Transformer 如圖 2-1 所示,是一個編碼器-解碼器架構(gòu),
其編碼器和解碼器均由一個編碼層和若干相同的 Transformer 模塊層
堆疊組成,編碼器的 Transformer 模塊層包括多頭注意力層和全連接
前饋網(wǎng)絡(luò)層,這兩部分通過殘差連接和層歸一化操作連接起來。與編
碼器模塊相比,解碼器由于需要考慮解碼器輸出作為背景信息進行生
成,其中每個 Transformer 層多了一個交叉注意力層。相比于傳統(tǒng)循
環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)和長短時記憶神經(jīng)網(wǎng)
絡(luò)(Long Short-Term Memory Network, LSTM),Transformer 架構(gòu)的
優(yōu)勢在于它的并行計算能力,即不需要按照時間步順序地進行計算。
Transformer 架構(gòu)包含編碼層與 Transformer 模塊兩個核心組件,
編碼層,主要是將輸入詞序列映射到連續(xù)值向量空間進行編碼,
每個詞編碼由詞嵌入和位置編碼構(gòu)成,由二者加和得到:
1)詞嵌入,在 Transformer 架構(gòu)中,詞嵌入是輸入數(shù)據(jù)的第一步
處理過程,它將詞映射到高維空間中的向量,可以捕獲詞匯的語義信
息,如詞義和語法關(guān)系。每個詞都被轉(zhuǎn)化為一個固定長度的向量,然
后被送入模型進行處理。