Python知識分享網(wǎng) - 專業(yè)的Python學習網(wǎng)站 學Python,上Python222
基于python爬蟲和NLP的聊天系統(tǒng)設(shè)計與實現(xiàn) PDF 下載
匿名網(wǎng)友發(fā)布于:2025-09-01 10:47:39
(侵權(quán)舉報)
(假如點擊沒反應(yīng),多刷新兩次就OK!)

基于python爬蟲和NLP的聊天系統(tǒng)設(shè)計與實現(xiàn) PDF 下載 圖1

 

 

資料內(nèi)容:

 

1.2.2生成式對話聊天系統(tǒng)研究現(xiàn)狀
生成式聊天對話是指由訓(xùn)練好的模型自動生成逼真的聊天對話內(nèi)容,而非事
先編寫的規(guī)則或預(yù)定的回復(fù),它可以模擬人類的對話方式和語言能力,使計算機
能夠和人類進行自然的對話。生成式聊天對話歷史可以追溯到二十世紀五十年代
早期,當時人工智能研究的先驅(qū)們開始探索如何使用計算機生成自然語言。在六
十年代科學家們開始開發(fā)人工智能系統(tǒng),這些系統(tǒng)使用推理和搜索算法來模擬人
類思維和語言生成能力。其中一個著名的例子是麻省理工學院在一九六六年開發(fā)
的Eliza【2l】程序,它是一個早期的對話系統(tǒng),能夠使用一些簡單的規(guī)則來模仿心
理醫(yī)生的對話風格。隨著計算機處理能力的提高和自然語言處理技術(shù)的發(fā)展,生
成式聊天對話的應(yīng)用逐漸普及。二十世紀七十年代,科學家開始嘗試使用模式匹
配技術(shù)來模擬人機對話,但是這種技術(shù)受限于預(yù)先設(shè)定的模式,無法實現(xiàn)自由流
暢的對話。到了二十世紀八十年代,科學家開始探索基于規(guī)則和知識庫【22】的對話
生成技術(shù),利用知識庫中的信息來回答用戶的問題,這種方法可以實現(xiàn)更加自然
的對話。但是,這種方法需要大量的手工制作和維護知識庫,而且對于一些復(fù)雜
的問題,知識庫中的信息往往不夠完整。在二十世紀九十年代,人們開始探索使
用統(tǒng)計模型和機器學習算法來生成自然語言。這些算法能夠從大量的語料庫中學
習語言模型,然后使用這些模型來預(yù)測下一個單詞或短語的可能性,從而生成流
暢的對話內(nèi)容。
近年來,隨著深度學習的興起,生成式聊天對話技術(shù)又取得了重大進展。通
過已有的深度學習模型,包括RNN和Transformerl23】模型,可以在不需要顯式規(guī)
則或手工特征工程的情況下,從大量的對話數(shù)據(jù)中學習生成對話的模式。這些模
型能夠自然地生成流暢的對話內(nèi)容,并且在與人類進行對話時表現(xiàn)得越來越自然
和逼真。該技術(shù)已經(jīng)被廣泛應(yīng)用于智能客服、聊天機器人、語音助手等領(lǐng)域。最
近幾年,研究人員不僅僅考慮能否生成通順的回復(fù),還研究了如何使生成的回復(fù)
具有多樣性。Li【24垮人從模型生成的語句對未來的影響角度出發(fā),模擬虛擬代理
間的對話,并評估了模型的互動響應(yīng)。Ludwig[25]等人提出了一種新的生成對話代
理(Generative Conversational Agents。GCA)對抗性學習方法,假設(shè)GCA是一個生
成器,目的是騙過判別器,把對話看成人類或機器生成的鑒別器,鑒別器會接收
上下文對話和當前令牌的不完整答案作為輸入,作者提出的新方法驗證了通過反
向傳播進行端到端訓(xùn)練的可能性,通過自我對話,為對抗訓(xùn)練生成大量多樣性數(shù)
據(jù),并提高了與訓(xùn)練數(shù)據(jù)無關(guān)問題的性能。由于互聯(lián)網(wǎng)上大量數(shù)據(jù)的生成和研究
人員對生成式對話模型的不斷創(chuàng)新,遷移學習也滲透進了對話生成領(lǐng)域。Wolft26】
等人提出了一種新的名為TransferTransfo方法來生成數(shù)據(jù)驅(qū)動對話系統(tǒng),該方法
結(jié)合了基于遷移學習的主題訓(xùn)練案和高容量Transformer模型,通過結(jié)合多個無
監(jiān)督預(yù)測任務(wù)的多任務(wù)目標來進行微調(diào)。Csakyt271等人針對當前基于神經(jīng)網(wǎng)絡(luò)的

對話模型缺乏多樣性并且對開放域?qū)υ捝蓻]有意義的回復(fù)的問題,提出了一種
通過從訓(xùn)練集中去除通用對話來過濾數(shù)據(jù)集的方法,該方法使用的是簡單基于熵
的方法,并且無需人工監(jiān)督。之前的對話模型通常為平面模式,將對話上下文直
接串聯(lián)后輸入模型中來預(yù)測回復(fù),然而這種方式卻沒有考慮到對話上下文之間的
動態(tài)信息流。Li[28】等人于是介紹了一種對上下文建模的動態(tài)流機制,作者通過處
理大規(guī)模預(yù)訓(xùn)練中每個句子帶來的語義影響,提出三個訓(xùn)練目標來捕獲對話語句
中的信息動態(tài)。Moorjanit29】等人提出在預(yù)訓(xùn)練語言生成模型中注入用戶的風格偏
好,利用有限的人類判斷來引導(dǎo)風格分析模型,并增加判斷子集,將學習到的文
本樣式添加進基于GPT-2的文本生成器中,同時平衡流暢性和樣式采用。