多輪對(duì)話語料構(gòu)建中的離群對(duì)話分析
發(fā)布時(shí)間:2021-07-24 11:16
近年來,伴隨著互聯(lián)網(wǎng)計(jì)算機(jī)技術(shù)的高速發(fā)展,各大領(lǐng)域技術(shù)開始聚焦人工智能(Artificial Intelligence)技術(shù),引領(lǐng)了一波人工智能信息時(shí)代的進(jìn)步。而智能對(duì)話系統(tǒng)作為人工智能中的一個(gè)重要表現(xiàn)形式,其引起了工業(yè)界以及學(xué)術(shù)界的廣泛關(guān)注。然而,構(gòu)建多輪對(duì)話聊天系統(tǒng)需要高質(zhì)量的海量口語對(duì)話語料,以便于訓(xùn)練智能對(duì)話系統(tǒng)中的口語語義理解模型等關(guān)鍵技術(shù)。對(duì)于對(duì)話系統(tǒng)中的口語對(duì)話語料,一般是從社區(qū)論壇(如貼吧、微博等)中獲取并且加工而成。盡管社區(qū)論壇對(duì)話資源豐富,但這些對(duì)話往往包含了大量如游戲、購物廣告等垃圾信息。此外,一些涉及辱罵等一些敏感話題也需要清除。而離群對(duì)話分析為多輪對(duì)話語料構(gòu)建中的重要一環(huán),本文從對(duì)話的主題方向切入,主要為分析多輪對(duì)話語料中偏離文檔主題的句子,進(jìn)而構(gòu)造出一種高質(zhì)量的純凈對(duì)話語料庫。對(duì)于論壇文本,其形式往往長度短小,且內(nèi)容較少、實(shí)時(shí)性強(qiáng),傳統(tǒng)方法收效見微。針對(duì)上述問題,本文運(yùn)用了現(xiàn)在廣為流行的深度學(xué)習(xí)技術(shù)來對(duì)社區(qū)對(duì)話語料來進(jìn)行處理,本文主要研究?jī)?nèi)容包括以下幾個(gè)方面:(1)首先對(duì)網(wǎng)絡(luò)論壇數(shù)據(jù)判別文本是否含有偏離主題的句子,然后再從含有偏離主題的對(duì)話中定位出離群的句子...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于模型的遷移學(xué)習(xí)方法示意圖
【參考文獻(xiàn)】:
期刊論文
[1]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡(luò)安全. 2017(01)
[2]基于詞嵌入擴(kuò)充的口語對(duì)話文本領(lǐng)域分類[J]. 楊萌萌,黃浩. 新疆大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(02)
[3]面向問答社區(qū)的答案摘要方法研究綜述[J]. 劉秉權(quán),徐振,劉峰,劉銘,孫承杰,王曉龍. 中文信息學(xué)報(bào). 2016(01)
[4]遷移學(xué)習(xí)研究進(jìn)展[J]. 莊福振,羅平,何清,史忠植. 軟件學(xué)報(bào). 2015(01)
[5]微博文本處理研究綜述[J]. 張劍峰,夏云慶,姚建民. 中文信息學(xué)報(bào). 2012(04)
[6]基于LDA模型的文本分割[J]. 石晶,胡明,石鑫,戴國忠. 計(jì)算機(jī)學(xué)報(bào). 2008(10)
[7]話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J]. 洪宇,張宇,劉挺,李生. 中文信息學(xué)報(bào). 2007(06)
碩士論文
[1]基于詞向量的短文本主題建模研究[D]. 王浩然.武漢大學(xué) 2017
[2]面向?qū)υ捨谋镜闹黝}分割技術(shù)研究[D]. 王炳浩.哈爾濱工業(yè)大學(xué) 2016
[3]基于詞向量的短文本分類方法研究[D]. 江大鵬.浙江大學(xué) 2015
本文編號(hào):3300547
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于模型的遷移學(xué)習(xí)方法示意圖
【參考文獻(xiàn)】:
期刊論文
[1]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡(luò)安全. 2017(01)
[2]基于詞嵌入擴(kuò)充的口語對(duì)話文本領(lǐng)域分類[J]. 楊萌萌,黃浩. 新疆大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(02)
[3]面向問答社區(qū)的答案摘要方法研究綜述[J]. 劉秉權(quán),徐振,劉峰,劉銘,孫承杰,王曉龍. 中文信息學(xué)報(bào). 2016(01)
[4]遷移學(xué)習(xí)研究進(jìn)展[J]. 莊福振,羅平,何清,史忠植. 軟件學(xué)報(bào). 2015(01)
[5]微博文本處理研究綜述[J]. 張劍峰,夏云慶,姚建民. 中文信息學(xué)報(bào). 2012(04)
[6]基于LDA模型的文本分割[J]. 石晶,胡明,石鑫,戴國忠. 計(jì)算機(jī)學(xué)報(bào). 2008(10)
[7]話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J]. 洪宇,張宇,劉挺,李生. 中文信息學(xué)報(bào). 2007(06)
碩士論文
[1]基于詞向量的短文本主題建模研究[D]. 王浩然.武漢大學(xué) 2017
[2]面向?qū)υ捨谋镜闹黝}分割技術(shù)研究[D]. 王炳浩.哈爾濱工業(yè)大學(xué) 2016
[3]基于詞向量的短文本分類方法研究[D]. 江大鵬.浙江大學(xué) 2015
本文編號(hào):3300547
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3300547.html
最近更新
教材專著