99riAV无码国产精品视频,亚洲aⅤ小视频一本二本,一级亚洲免费毛片中

大模型（LLMs）基礎面試題 PDF 下載

匿名網(wǎng)友發(fā)布于：2025-03-24 10:08:04

(侵權舉報)

(假如點擊沒反應，多刷新兩次就OK！)

大模型（LLMs）基礎面試題 PDF 下載圖1

資料內容：

4涌現(xiàn)能力是啥原因?

根據(jù)前人分析和論文總結，大致是2個猜想:·任務的評價指標不夠平滑;

·復雜任務vs子任務，這個其實好理解，比如我們假設某個任務T有5個子任務Sub-T構成，每個sub-T隨著模型增長，指標從40%提升到60%，但是最終任務的指標只從1.1%提升到了7%，也就是說宏觀上看到了涌現(xiàn)現(xiàn)象，但是了任務效果其實是平滑增長的。

5為何現(xiàn)在的大模型大部分是Decoder only結構?

因為decoder-only結構模型在沒有任何微調數(shù)據(jù)的情況下，zeroshot的表現(xiàn)能力最好。而encoder-decoder則需要在一定量的標注數(shù)據(jù)上做multitask-finetuning才能夠激發(fā)最佳性能。

目前的Large LM的訓練范式還是在大規(guī)模語料shang做自監(jiān)督學習，很顯然zero-hot性能更好的decoder-only架構才能更好的利用這些無標主的數(shù)據(jù)。

大模型使用decoder-only架構除了訓練效率和工程實現(xiàn)上的優(yōu)勢外，在理論上因為Encoder的雙向注意力會存在低秩的問題，這可能會削弱模型的表達能力。就生成任務而言，引入雙向注意力并無實質的好處。而Encoder-decoder模型架構之所以能夠在某些場景下表現(xiàn)更好，大概是因為它多了一倍參數(shù)。所以在同等參數(shù)量、同等推理成本下，Decoder-only架構就是最優(yōu)的選擇了。

熱門帖子推薦

相關帖子推薦

熱門標簽推薦