在線學(xué)習(xí)聊天機(jī)器人回復(fù)安全性的研究

發(fā)布時(shí)間：2021-07-21 03:57

　　隨著人工智能技術(shù)的快速發(fā)展,越來越多的人工智能技術(shù)走出實(shí)驗(yàn)室,在市場和實(shí)踐中落地。典型例子有情感陪護(hù)類聊天機(jī)器人和個(gè)人助手類對話系統(tǒng),如Tay、小冰、Alex智能音箱和Siri等。人們感嘆人工智能產(chǎn)品給生活帶來便利的同時(shí),也對人工智能產(chǎn)品的安全性感到擔(dān)憂。事實(shí)證明,這些擔(dān)憂并不是多余的。人工智能技術(shù)在產(chǎn)品化的過程中暴露出很多安全問題。其中,針對聊天機(jī)器人的在線學(xué)習(xí)漏洞的攻擊就頻頻發(fā)生:黑客或惡意用戶利用聊天系統(tǒng)的在線學(xué)習(xí)接口漏洞,“教”給機(jī)器人極端言論,導(dǎo)致聊天機(jī)器人產(chǎn)生不當(dāng)言論而觸犯了當(dāng)?shù)胤煞ㄒ?guī),導(dǎo)致聊天機(jī)器人產(chǎn)品被迫下架整頓,給公司帶來極大損失。此外,由于無法確定模型“學(xué)壞”的具體時(shí)刻,因此很難精確地回滾到未受污染的版本,只能回滾到相對早期的版本。如果模型退回到早期的版本就丟失了這期間從在線學(xué)習(xí)接口中學(xué)到的有價(jià)值的內(nèi)容,給整頓工作帶來了不小的難度。這使得在線學(xué)習(xí)聊天機(jī)器人回復(fù)的安全性成了工業(yè)界和學(xué)術(shù)界亟待解決的問題。因此,本文針對在線學(xué)習(xí)聊天機(jī)器人回復(fù)的安全性問題進(jìn)行了研究。本文的主要工作如下:1.提出了一個(gè)針對在線學(xué)習(xí)聊天機(jī)器人的安全回復(fù)框架。首先,該框架能夠結(jié)合用戶輸入句的語...

【文章來源】：東華大學(xué)上海市 211工程院校教育部直屬院校

【文章頁數(shù)】：107 頁

【學(xué)位級別】：博士

【部分圖文】：

在線學(xué)習(xí)流程圖

聊天機(jī)器人,言論

第一章緒論3復(fù)中。可見，該架構(gòu)下機(jī)器人擁有很強(qiáng)的在線學(xué)習(xí)能力。圖1-2.聊天機(jī)器人的在線學(xué)習(xí)場景1.2.2在線學(xué)習(xí)聊天機(jī)器人的回復(fù)安全性問題在線學(xué)習(xí)技術(shù)使得聊天機(jī)器人能夠在與人類的對話中進(jìn)行學(xué)習(xí)，這極大豐富了回復(fù)的多樣性，提升了產(chǎn)品趣味。然而，在實(shí)際應(yīng)用中，黑客或惡意用戶會利用在線學(xué)習(xí)接口“教”聊天機(jī)器人產(chǎn)生非安全回復(fù)。因此，在線學(xué)習(xí)技術(shù)在改善聊天機(jī)器人產(chǎn)品體驗(yàn)的同時(shí)也增添了風(fēng)險(xiǎn)。本節(jié)首先給出問題描述，然后討論衡量問題解決效果的評測標(biāo)準(zhǔn)。非安全回復(fù)侵犯言論的定義如下：侵犯言論（OffensiveLanguage）是指粗魯?shù)幕蛄钊朔锤械恼Z言。它可以表現(xiàn)為對某人或某事的貶低，或者被視為對某事物的強(qiáng)烈表達(dá)1。與為人熟知的“侵犯言論”這一概括性的定義不同的是，非安全回復(fù)（UnsafeResponse）是本文根據(jù)聊天機(jī)器人領(lǐng)域的回復(fù)特點(diǎn)，從詞匯、語義和語境三個(gè)方面歸納的定義：定義1.如果聊天機(jī)器人的回復(fù)句中包含以下三種情況的任意一種，即認(rèn)為1http://wikipedia.moesalih.com/Offensive_language

框架圖,聊天機(jī)器人,框架,思路

第一章緒論9年來，深度學(xué)習(xí)模型發(fā)展迅速并在各項(xiàng)任務(wù)中取得矚目的成果。其端到端的訓(xùn)練形式可以自動提取文本特征，這使得研究人員只需專注于模型結(jié)構(gòu)本身。文獻(xiàn)[44]使用情感和詞嵌入的長短期記憶網(wǎng)絡(luò)（LongShort-TermMemory,LSTM）模型做仇恨言論檢測。文獻(xiàn)[45]利用雙向循環(huán)網(wǎng)絡(luò)（BidirectionalRecurrentNeuralNetworks,Bi-RNN）和注意力機(jī)制來檢測網(wǎng)絡(luò)欺凌，雙向循環(huán)網(wǎng)絡(luò)用于整合雙向的上下文信息，注意力機(jī)制反映了句中不同單詞對于分類的貢獻(xiàn)。文獻(xiàn)[46]提出了多層注意力模型（HierarchicalAttentionNetworks）架構(gòu)來捕捉社交媒體會話的層次結(jié)構(gòu)。雖然針對聊天機(jī)器人回復(fù)的言論審查與針對用戶生成內(nèi)容的言論審查之間有很多相似之處，但二者也存在如下區(qū)別：1）針對聊天機(jī)器人的言論審查不僅需要審查回復(fù)句，還需要結(jié)合用戶輸入句的語境來判斷。而針對用戶生成內(nèi)容的審查無此特性。2）針對聊天機(jī)器人的言論審查存在一個(gè)從審查器到聊天模型的管道，而針對用戶生成內(nèi)容的審查沒有此管道。換言之，審查系統(tǒng)無權(quán)也無法對用戶的思想和行為做改變，但可以改變聊天機(jī)器人的“思想”和行為。1.4研究路線針對在線學(xué)習(xí)聊天機(jī)器人回復(fù)安全性問題面臨的挑戰(zhàn)和已有工作的不足，本文首先提出一個(gè)在線學(xué)習(xí)聊天機(jī)器人的安全回復(fù)系統(tǒng)框架，然后研究此框架的三項(xiàng)關(guān)鍵技術(shù)，最后設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于此框架的應(yīng)用示例。本文的研究思路如圖1-4所示。圖1-4.在線聊天機(jī)器人回復(fù)安全性的研究思路在整體框架上，本文將安全回復(fù)框架分為以下兩個(gè)任務(wù)：聊天機(jī)器人回復(fù)的言論審查和受污染的聊天機(jī)器人的言論凈化。為了應(yīng)對只檢測回復(fù)句在

本文編號：3294255

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/3294255.html

上一篇：自適應(yīng)多變量統(tǒng)計(jì)過程監(jiān)控研究
下一篇：衛(wèi)星光通信系統(tǒng)的雜散光抑制研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

在線學(xué)習(xí)聊天機(jī)器人回復(fù)安全性的研究