Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
大模型(LLMs)基礎(chǔ)面試題 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-03-24 10:08:04
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

大模型(LLMs)基礎(chǔ)面試題  PDF 下載 圖1

 

 

資料內(nèi)容:

 

4涌現(xiàn)能力是啥原因?

根據(jù)前人分析和論文總結(jié),大致是2個(gè)猜想:·任務(wù)的評(píng)價(jià)指標(biāo)不夠平滑;

·復(fù)雜任務(wù)vs子任務(wù),這個(gè)其實(shí)好理解,比如我們假設(shè)某個(gè)任務(wù)T有5個(gè)子任務(wù)Sub-T構(gòu)成,每個(gè)sub-T隨著模型增長(zhǎng),指標(biāo)從40%提升到60%,但是最終任務(wù)的指標(biāo)只從1.1%提升到了7%,也就是說宏觀上看到了涌現(xiàn)現(xiàn)象,但是了任務(wù)效果其實(shí)是平滑增長(zhǎng)的。

 

5為何現(xiàn)在的大模型大部分是Decoder only結(jié)構(gòu)?

因?yàn)閐ecoder-only結(jié)構(gòu)模型在沒有任何微調(diào)數(shù)據(jù)的情況下,zeroshot的表現(xiàn)能力最好。而encoder-decoder則需要在一定量的標(biāo)注數(shù)據(jù)上做multitask-finetuning才能夠激發(fā)最佳性能。

目前的Large LM的訓(xùn)練范式還是在大規(guī)模語(yǔ)料shang做自監(jiān)督學(xué)習(xí),很顯然zero-hot性能更好的decoder-only架構(gòu)才能更好的利用這些無(wú)標(biāo)主的數(shù)據(jù)。

大模型使用decoder-only架構(gòu)除了訓(xùn)練效率和工程實(shí)現(xiàn)上的優(yōu)勢(shì)外,在理論上因?yàn)镋ncoder的雙向注意力會(huì)存在低秩的問題,這可能會(huì)削弱模型的表達(dá)能力。就生成任務(wù)而言,引入雙向注意力并無(wú)實(shí)質(zhì)的好處。而Encoder-decoder模型架構(gòu)之所以能夠在某些場(chǎng)景下表現(xiàn)更好,大概是因?yàn)樗嗔艘槐秴?shù)。所以在同等參數(shù)量、同等推理成本下,Decoder-only架構(gòu)就是最優(yōu)的選擇了。