在線學(xué)習(xí)聊天機(jī)器人回復(fù)安全性的研究
發(fā)布時(shí)間:2021-07-21 03:57
隨著人工智能技術(shù)的快速發(fā)展,越來越多的人工智能技術(shù)走出實(shí)驗(yàn)室,在市場和實(shí)踐中落地。典型例子有情感陪護(hù)類聊天機(jī)器人和個(gè)人助手類對話系統(tǒng),如Tay、小冰、Alex智能音箱和Siri等。人們感嘆人工智能產(chǎn)品給生活帶來便利的同時(shí),也對人工智能產(chǎn)品的安全性感到擔(dān)憂。事實(shí)證明,這些擔(dān)憂并不是多余的。人工智能技術(shù)在產(chǎn)品化的過程中暴露出很多安全問題。其中,針對聊天機(jī)器人的在線學(xué)習(xí)漏洞的攻擊就頻頻發(fā)生:黑客或惡意用戶利用聊天系統(tǒng)的在線學(xué)習(xí)接口漏洞,“教”給機(jī)器人極端言論,導(dǎo)致聊天機(jī)器人產(chǎn)生不當(dāng)言論而觸犯了當(dāng)?shù)胤煞ㄒ?guī),導(dǎo)致聊天機(jī)器人產(chǎn)品被迫下架整頓,給公司帶來極大損失。此外,由于無法確定模型“學(xué)壞”的具體時(shí)刻,因此很難精確地回滾到未受污染的版本,只能回滾到相對早期的版本。如果模型退回到早期的版本就丟失了這期間從在線學(xué)習(xí)接口中學(xué)到的有價(jià)值的內(nèi)容,給整頓工作帶來了不小的難度。這使得在線學(xué)習(xí)聊天機(jī)器人回復(fù)的安全性成了工業(yè)界和學(xué)術(shù)界亟待解決的問題。因此,本文針對在線學(xué)習(xí)聊天機(jī)器人回復(fù)的安全性問題進(jìn)行了研究。本文的主要工作如下:1.提出了一個(gè)針對在線學(xué)習(xí)聊天機(jī)器人的安全回復(fù)框架。首先,該框架能夠結(jié)合用戶輸入句的語...
【文章來源】:東華大學(xué)上海市 211工程院校 教育部直屬院校
【文章頁數(shù)】:107 頁
【學(xué)位級別】:博士
【部分圖文】:
在線學(xué)習(xí)流程圖
第一章緒論3復(fù)中。可見,該架構(gòu)下機(jī)器人擁有很強(qiáng)的在線學(xué)習(xí)能力。圖1-2.聊天機(jī)器人的在線學(xué)習(xí)場景1.2.2在線學(xué)習(xí)聊天機(jī)器人的回復(fù)安全性問題在線學(xué)習(xí)技術(shù)使得聊天機(jī)器人能夠在與人類的對話中進(jìn)行學(xué)習(xí),這極大豐富了回復(fù)的多樣性,提升了產(chǎn)品趣味。然而,在實(shí)際應(yīng)用中,黑客或惡意用戶會利用在線學(xué)習(xí)接口“教”聊天機(jī)器人產(chǎn)生非安全回復(fù)。因此,在線學(xué)習(xí)技術(shù)在改善聊天機(jī)器人產(chǎn)品體驗(yàn)的同時(shí)也增添了風(fēng)險(xiǎn)。本節(jié)首先給出問題描述,然后討論衡量問題解決效果的評測標(biāo)準(zhǔn)。非安全回復(fù)侵犯言論的定義如下:侵犯言論(OffensiveLanguage)是指粗魯?shù)幕蛄钊朔锤械恼Z言。它可以表現(xiàn)為對某人或某事的貶低,或者被視為對某事物的強(qiáng)烈表達(dá)1。與為人熟知的“侵犯言論”這一概括性的定義不同的是,非安全回復(fù)(UnsafeResponse)是本文根據(jù)聊天機(jī)器人領(lǐng)域的回復(fù)特點(diǎn),從詞匯、語義和語境三個(gè)方面歸納的定義:定義1.如果聊天機(jī)器人的回復(fù)句中包含以下三種情況的任意一種,即認(rèn)為1http://wikipedia.moesalih.com/Offensive_language
第一章緒論9年來,深度學(xué)習(xí)模型發(fā)展迅速并在各項(xiàng)任務(wù)中取得矚目的成果。其端到端的訓(xùn)練形式可以自動提取文本特征,這使得研究人員只需專注于模型結(jié)構(gòu)本身。文獻(xiàn)[44]使用情感和詞嵌入的長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)模型做仇恨言論檢測。文獻(xiàn)[45]利用雙向循環(huán)網(wǎng)絡(luò)(BidirectionalRecurrentNeuralNetworks,Bi-RNN)和注意力機(jī)制來檢測網(wǎng)絡(luò)欺凌,雙向循環(huán)網(wǎng)絡(luò)用于整合雙向的上下文信息,注意力機(jī)制反映了句中不同單詞對于分類的貢獻(xiàn)。文獻(xiàn)[46]提出了多層注意力模型(HierarchicalAttentionNetworks)架構(gòu)來捕捉社交媒體會話的層次結(jié)構(gòu)。雖然針對聊天機(jī)器人回復(fù)的言論審查與針對用戶生成內(nèi)容的言論審查之間有很多相似之處,但二者也存在如下區(qū)別:1)針對聊天機(jī)器人的言論審查不僅需要審查回復(fù)句,還需要結(jié)合用戶輸入句的語境來判斷。而針對用戶生成內(nèi)容的審查無此特性。2)針對聊天機(jī)器人的言論審查存在一個(gè)從審查器到聊天模型的管道,而針對用戶生成內(nèi)容的審查沒有此管道。換言之,審查系統(tǒng)無權(quán)也無法對用戶的思想和行為做改變,但可以改變聊天機(jī)器人的“思想”和行為。1.4研究路線針對在線學(xué)習(xí)聊天機(jī)器人回復(fù)安全性問題面臨的挑戰(zhàn)和已有工作的不足,本文首先提出一個(gè)在線學(xué)習(xí)聊天機(jī)器人的安全回復(fù)系統(tǒng)框架,然后研究此框架的三項(xiàng)關(guān)鍵技術(shù),最后設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于此框架的應(yīng)用示例。本文的研究思路如圖1-4所示。圖1-4.在線聊天機(jī)器人回復(fù)安全性的研究思路在整體框架上,本文將安全回復(fù)框架分為以下兩個(gè)任務(wù):聊天機(jī)器人回復(fù)的言論審查和受污染的聊天機(jī)器人的言論凈化。為了應(yīng)對只檢測回復(fù)句在
本文編號:3294255
【文章來源】:東華大學(xué)上海市 211工程院校 教育部直屬院校
【文章頁數(shù)】:107 頁
【學(xué)位級別】:博士
【部分圖文】:
在線學(xué)習(xí)流程圖
第一章緒論3復(fù)中。可見,該架構(gòu)下機(jī)器人擁有很強(qiáng)的在線學(xué)習(xí)能力。圖1-2.聊天機(jī)器人的在線學(xué)習(xí)場景1.2.2在線學(xué)習(xí)聊天機(jī)器人的回復(fù)安全性問題在線學(xué)習(xí)技術(shù)使得聊天機(jī)器人能夠在與人類的對話中進(jìn)行學(xué)習(xí),這極大豐富了回復(fù)的多樣性,提升了產(chǎn)品趣味。然而,在實(shí)際應(yīng)用中,黑客或惡意用戶會利用在線學(xué)習(xí)接口“教”聊天機(jī)器人產(chǎn)生非安全回復(fù)。因此,在線學(xué)習(xí)技術(shù)在改善聊天機(jī)器人產(chǎn)品體驗(yàn)的同時(shí)也增添了風(fēng)險(xiǎn)。本節(jié)首先給出問題描述,然后討論衡量問題解決效果的評測標(biāo)準(zhǔn)。非安全回復(fù)侵犯言論的定義如下:侵犯言論(OffensiveLanguage)是指粗魯?shù)幕蛄钊朔锤械恼Z言。它可以表現(xiàn)為對某人或某事的貶低,或者被視為對某事物的強(qiáng)烈表達(dá)1。與為人熟知的“侵犯言論”這一概括性的定義不同的是,非安全回復(fù)(UnsafeResponse)是本文根據(jù)聊天機(jī)器人領(lǐng)域的回復(fù)特點(diǎn),從詞匯、語義和語境三個(gè)方面歸納的定義:定義1.如果聊天機(jī)器人的回復(fù)句中包含以下三種情況的任意一種,即認(rèn)為1http://wikipedia.moesalih.com/Offensive_language
第一章緒論9年來,深度學(xué)習(xí)模型發(fā)展迅速并在各項(xiàng)任務(wù)中取得矚目的成果。其端到端的訓(xùn)練形式可以自動提取文本特征,這使得研究人員只需專注于模型結(jié)構(gòu)本身。文獻(xiàn)[44]使用情感和詞嵌入的長短期記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)模型做仇恨言論檢測。文獻(xiàn)[45]利用雙向循環(huán)網(wǎng)絡(luò)(BidirectionalRecurrentNeuralNetworks,Bi-RNN)和注意力機(jī)制來檢測網(wǎng)絡(luò)欺凌,雙向循環(huán)網(wǎng)絡(luò)用于整合雙向的上下文信息,注意力機(jī)制反映了句中不同單詞對于分類的貢獻(xiàn)。文獻(xiàn)[46]提出了多層注意力模型(HierarchicalAttentionNetworks)架構(gòu)來捕捉社交媒體會話的層次結(jié)構(gòu)。雖然針對聊天機(jī)器人回復(fù)的言論審查與針對用戶生成內(nèi)容的言論審查之間有很多相似之處,但二者也存在如下區(qū)別:1)針對聊天機(jī)器人的言論審查不僅需要審查回復(fù)句,還需要結(jié)合用戶輸入句的語境來判斷。而針對用戶生成內(nèi)容的審查無此特性。2)針對聊天機(jī)器人的言論審查存在一個(gè)從審查器到聊天模型的管道,而針對用戶生成內(nèi)容的審查沒有此管道。換言之,審查系統(tǒng)無權(quán)也無法對用戶的思想和行為做改變,但可以改變聊天機(jī)器人的“思想”和行為。1.4研究路線針對在線學(xué)習(xí)聊天機(jī)器人回復(fù)安全性問題面臨的挑戰(zhàn)和已有工作的不足,本文首先提出一個(gè)在線學(xué)習(xí)聊天機(jī)器人的安全回復(fù)系統(tǒng)框架,然后研究此框架的三項(xiàng)關(guān)鍵技術(shù),最后設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于此框架的應(yīng)用示例。本文的研究思路如圖1-4所示。圖1-4.在線聊天機(jī)器人回復(fù)安全性的研究思路在整體框架上,本文將安全回復(fù)框架分為以下兩個(gè)任務(wù):聊天機(jī)器人回復(fù)的言論審查和受污染的聊天機(jī)器人的言論凈化。為了應(yīng)對只檢測回復(fù)句在
本文編號:3294255
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3294255.html
最近更新
教材專著