Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
大模型(LLMs)進(jìn)階面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-03-28 07:59:53
(侵權(quán)舉報(bào))
(假如點(diǎn)擊沒(méi)反應(yīng),多刷新兩次就OK!)

 

一、什么是生成式大模型?
生成式大模型(一般簡(jiǎn)稱大模型LLMs)是指能用于創(chuàng)作新內(nèi)容,例如文本、圖片、音頻以及視頻的一類深度學(xué)
習(xí)模型。相比普通深度學(xué)習(xí)模型,主要有兩點(diǎn)不同:
二、大模型是怎么讓生成的文本豐富而不單調(diào)的呢?
大模型(LLMs)進(jìn)階面
一、什么是生成式大模型?
二、大模型是怎么讓生成的文本豐富而不單調(diào)的呢?
三、LLMs 復(fù)讀機(jī)問(wèn)題
3.1 什么是 LLMs 復(fù)讀機(jī)問(wèn)題?
3.2 為什么會(huì)出現(xiàn) LLMs 復(fù)讀機(jī)問(wèn)題?
3.3 如何緩解 LLMs 復(fù)讀機(jī)問(wèn)題?
3.3.1 Unlikelihood Training
3.3.2 引入噪聲
3.3.3 Repetition Penalty
3.3.4 Contrastive Search
3.3.5 Beam Search
3.3.6 TopK sampling
3.3.7 Nucleus sampler
3.3.8 Temperature
3.3.9 No repeat ngram size
3.3.10 重復(fù)率指標(biāo)檢測(cè)
3.3.11 后處理和過(guò)濾
3.3.12 人工干預(yù)和控制
四、llama 系列問(wèn)題
4.1 llama 輸入句子長(zhǎng)度理論上可以無(wú)限長(zhǎng)嗎?
五、什么情況用Bert模型,什么情況用LLaMA、ChatGLM類大模型,咋選?
六、各個(gè)專業(yè)領(lǐng)域是否需要各自的大模型來(lái)服務(wù)?
七、如何讓大模型處理更長(zhǎng)的文本?
致謝
1. 模型參數(shù)量更大,參數(shù)量都在Billion級(jí)別;
2. 可通過(guò)條件或上下文引導(dǎo),產(chǎn)生生成式的內(nèi)容(所謂的prompt engineer就是由此而來(lái))。
1. 從訓(xùn)練角度來(lái)看:
a. 基于Transformer的模型參數(shù)量巨大,有助于模型學(xué)習(xí)到多樣化的語(yǔ)言模式與結(jié)構(gòu);
b. 各種模型微調(diào)技術(shù)的出現(xiàn),例如P-Tuning、Lora,讓大模型微調(diào)成本更低,也可以讓模型在垂直領(lǐng)域
有更強(qiáng)的生成能力;
掃碼加
查看更多c. 在訓(xùn)練過(guò)程中加入一些設(shè)計(jì)好的loss,也可以更好地抑制模型生成單調(diào)內(nèi)容;
2. 從推理角度來(lái)看:
a. 基于Transformer的模型可以通過(guò)引入各種參數(shù)與策略,例如temperature,nucleus samlper來(lái)改變每
次生成的內(nèi)容。
三、LLMs 復(fù)讀機(jī)問(wèn)題
3.1 什么是 LLMs 復(fù)讀機(jī)問(wèn)題?
LLMs 復(fù)讀機(jī)問(wèn)題:
1. 字符級(jí)別重復(fù),指大模型針對(duì)一個(gè)字或一個(gè)詞重復(fù)不斷的生成
例如在電商翻譯場(chǎng)景上,會(huì)出現(xiàn)“steckdose steckdose steckdose steckdose steckdose steckdose steckdose
steckdose...”
1. 語(yǔ)句級(jí)別重復(fù),大模型針對(duì)一句話重復(fù)不斷的生成
例如在多模態(tài)大模型圖片理解上,生成的結(jié)果可能會(huì)不斷重復(fù)圖片的部分內(nèi)容,比如這是一個(gè)杯子,這是一個(gè)
杯子...”;
1. 章節(jié)級(jí)別重復(fù),多次相同的prompt輸出完全相同或十分近似的內(nèi)容,沒(méi)有一點(diǎn)創(chuàng)新性的內(nèi)容
比如你讓大模型給你寫一篇關(guān)于春天的小作文,結(jié)果發(fā)現(xiàn)大模型的生成結(jié)果千篇一律,甚至近乎一摸一樣。
1. 大模型針對(duì)不同的prompt也可能會(huì)生成類似的內(nèi)容,且有效信息很少、信息熵偏低