一、什么是生成式大模型?
生成式大模型(一般簡(jiǎn)稱大模型LLMs)是指能用于創(chuàng)作新內(nèi)容,例如文本、圖片、音頻以及視頻的一類深度學(xué)
習(xí)模型。相比普通深度學(xué)習(xí)模型,主要有兩點(diǎn)不同:
二、大模型是怎么讓生成的文本豐富而不單調(diào)的呢?
• 大模型(LLMs)進(jìn)階面
• 一、什么是生成式大模型?
• 二、大模型是怎么讓生成的文本豐富而不單調(diào)的呢?
• 三、LLMs 復(fù)讀機(jī)問(wèn)題
• 3.1 什么是 LLMs 復(fù)讀機(jī)問(wèn)題?
• 3.2 為什么會(huì)出現(xiàn) LLMs 復(fù)讀機(jī)問(wèn)題?
• 3.3 如何緩解 LLMs 復(fù)讀機(jī)問(wèn)題?
• 3.3.1 Unlikelihood Training
• 3.3.2 引入噪聲
• 3.3.3 Repetition Penalty
• 3.3.4 Contrastive Search
• 3.3.5 Beam Search
• 3.3.6 TopK sampling
• 3.3.7 Nucleus sampler
• 3.3.8 Temperature
• 3.3.9 No repeat ngram size
• 3.3.10 重復(fù)率指標(biāo)檢測(cè)
• 3.3.11 后處理和過(guò)濾
• 3.3.12 人工干預(yù)和控制
• 四、llama 系列問(wèn)題
• 4.1 llama 輸入句子長(zhǎng)度理論上可以無(wú)限長(zhǎng)嗎?
• 五、什么情況用Bert模型,什么情況用LLaMA、ChatGLM類大模型,咋選?
• 六、各個(gè)專業(yè)領(lǐng)域是否需要各自的大模型來(lái)服務(wù)?
• 七、如何讓大模型處理更長(zhǎng)的文本?
• 致謝
1. 模型參數(shù)量更大,參數(shù)量都在Billion級(jí)別;
2. 可通過(guò)條件或上下文引導(dǎo),產(chǎn)生生成式的內(nèi)容(所謂的prompt engineer就是由此而來(lái))。
1. 從訓(xùn)練角度來(lái)看:
a. 基于Transformer的模型參數(shù)量巨大,有助于模型學(xué)習(xí)到多樣化的語(yǔ)言模式與結(jié)構(gòu);
b. 各種模型微調(diào)技術(shù)的出現(xiàn),例如P-Tuning、Lora,讓大模型微調(diào)成本更低,也可以讓模型在垂直領(lǐng)域
有更強(qiáng)的生成能力;
掃碼加
查看更多c. 在訓(xùn)練過(guò)程中加入一些設(shè)計(jì)好的loss,也可以更好地抑制模型生成單調(diào)內(nèi)容;
2. 從推理角度來(lái)看:
a. 基于Transformer的模型可以通過(guò)引入各種參數(shù)與策略,例如temperature,nucleus samlper來(lái)改變每
次生成的內(nèi)容。
三、LLMs 復(fù)讀機(jī)問(wèn)題
3.1 什么是 LLMs 復(fù)讀機(jī)問(wèn)題?
LLMs 復(fù)讀機(jī)問(wèn)題:
1. 字符級(jí)別重復(fù),指大模型針對(duì)一個(gè)字或一個(gè)詞重復(fù)不斷的生成
例如在電商翻譯場(chǎng)景上,會(huì)出現(xiàn)“steckdose steckdose steckdose steckdose steckdose steckdose steckdose
steckdose...”;
1. 語(yǔ)句級(jí)別重復(fù),大模型針對(duì)一句話重復(fù)不斷的生成
例如在多模態(tài)大模型圖片理解上,生成的結(jié)果可能會(huì)不斷重復(fù)圖片的部分內(nèi)容,比如“這是一個(gè)杯子,這是一個(gè)
杯子...”;
1. 章節(jié)級(jí)別重復(fù),多次相同的prompt輸出完全相同或十分近似的內(nèi)容,沒(méi)有一點(diǎn)創(chuàng)新性的內(nèi)容
比如你讓大模型給你寫一篇關(guān)于春天的小作文,結(jié)果發(fā)現(xiàn)大模型的生成結(jié)果千篇一律,甚至近乎一摸一樣。
1. 大模型針對(duì)不同的prompt也可能會(huì)生成類似的內(nèi)容,且有效信息很少、信息熵偏低