Python知識分享網(wǎng) - 專業(yè)的Python學習網(wǎng)站 學Python,上Python222
大模型(LLMs)基礎面試題 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-03-24 10:08:04
(侵權舉報)
(假如點擊沒反應,多刷新兩次就OK!)

大模型(LLMs)基礎面試題  PDF 下載 圖1

 

 

資料內容:

 

4涌現(xiàn)能力是啥原因?

根據(jù)前人分析和論文總結,大致是2個猜想:·任務的評價指標不夠平滑;

·復雜任務vs子任務,這個其實好理解,比如我們假設某個任務T有5個子任務Sub-T構成,每個sub-T隨著模型增長,指標從40%提升到60%,但是最終任務的指標只從1.1%提升到了7%,也就是說宏觀上看到了涌現(xiàn)現(xiàn)象,但是了任務效果其實是平滑增長的。

 

5為何現(xiàn)在的大模型大部分是Decoder only結構?

因為decoder-only結構模型在沒有任何微調數(shù)據(jù)的情況下,zeroshot的表現(xiàn)能力最好。而encoder-decoder則需要在一定量的標注數(shù)據(jù)上做multitask-finetuning才能夠激發(fā)最佳性能。

目前的Large LM的訓練范式還是在大規(guī)模語料shang做自監(jiān)督學習,很顯然zero-hot性能更好的decoder-only架構才能更好的利用這些無標主的數(shù)據(jù)。

大模型使用decoder-only架構除了訓練效率和工程實現(xiàn)上的優(yōu)勢外,在理論上因為Encoder的雙向注意力會存在低秩的問題,這可能會削弱模型的表達能力。就生成任務而言,引入雙向注意力并無實質的好處。而Encoder-decoder模型架構之所以能夠在某些場景下表現(xiàn)更好,大概是因為它多了一倍參數(shù)。所以在同等參數(shù)量、同等推理成本下,Decoder-only架構就是最優(yōu)的選擇了。