短文本信息流話題檢測技術(shù)研究
發(fā)布時間:2021-05-10 07:14
為解決短文本信息稀疏性、話題開放性等問題,提高話題檢測性能,論文以短文本信息流為研究對象,通過分析相關(guān)的機器學(xué)習(xí)與自然語言處理技術(shù),提出了針對短文本信息流話題檢測中幾個關(guān)鍵步驟的算法。論文的主要工作與結(jié)論如下:針對短文本信息稀疏性的問題,論文借鑒了統(tǒng)計學(xué)中自助抽樣法的思想,提出了基于語義距離的短文本數(shù)據(jù)增廣算法;該算法通過文本相似度和詞-詞距離的計算,擴展文本特征。通過與其他幾種文本數(shù)據(jù)增廣方法的比較,驗證了論文提出的數(shù)據(jù)增廣算法可以提高話題分類的準(zhǔn)確性,也證明了在不借助外部應(yīng)用和外部知識的情況下,利用語料自身,依然可以實現(xiàn)有效的短文本數(shù)據(jù)增廣,從而讓分類器學(xué)習(xí)更多的特征,提高模型的泛化能力。針對短文本信息話題開放性的問題,論文提出了基于自編碼器的未定義話題檢測算法。該算法利用在分類網(wǎng)絡(luò)上預(yù)訓(xùn)練的文本向量表示訓(xùn)練自編碼器,利用重構(gòu)損失的大小過濾未定義話題短文本。實驗比較了該算法和幾種one-class分類算法檢測性能,驗證了論文提出的算法提高了未定義話題檢測的準(zhǔn)確性,也證明了自編碼器不僅能夠應(yīng)用于圖像處理、視頻監(jiān)控等領(lǐng)域的異常檢測中,也能應(yīng)用于未定義話題文本的檢測。針對短文本建模的問題...
【文章來源】:中國人民公安大學(xué)北京市
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
引言
1 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 主題模型
1.2.2 表示學(xué)習(xí)
1.2.3 文本分類
1.3 研究內(nèi)容與論文結(jié)構(gòu)
1.3.1 主要研究內(nèi)容
1.3.2 論文結(jié)構(gòu)
2 基于語義距離的短文本數(shù)據(jù)增廣算法
2.1 文本數(shù)據(jù)增廣技術(shù)分析
2.1.1 文本數(shù)據(jù)增廣
2.1.2 詞-詞語義距離
2.1.3 文本相似度
2.2 基于語義距離的數(shù)據(jù)增廣算法
2.2.1 總體流程
2.2.2 構(gòu)建語義空間
2.2.3 語義距離計算
2.2.4 接受策略
2.3 算法驗證
2.3.1 實驗數(shù)據(jù)與預(yù)處理
2.3.2 實驗設(shè)置
2.3.3 實驗結(jié)果
2.3.4 實驗分析
2.4 本章小結(jié)
3 基于自編碼器的短文本OOD話題檢測算法
3.1 OOD檢測技術(shù)分析
3.2 基于自編碼器的OOD話題檢測算法
3.2.1 算法流程
3.2.2 短文本向量化
3.2.3 基于自編碼器的one-class分類
3.3 算法驗證
3.3.1 實驗數(shù)據(jù)
3.3.2 實驗設(shè)置
3.3.3 比較實驗
3.3.4 實驗分析
3.4 本章小結(jié)
4 CapSA神經(jīng)網(wǎng)絡(luò)短文本話題分類算法
4.1 文本話題分類技術(shù)分析
4.2 CapSA文本話題分類網(wǎng)絡(luò)模型
4.2.1 深度卷積膠囊網(wǎng)絡(luò)
4.2.2 自注意力網(wǎng)絡(luò)
4.2.3 話題分類網(wǎng)絡(luò)
4.3 算法驗證
4.3.1 實驗設(shè)置與實驗數(shù)據(jù)
4.3.2 實驗結(jié)果
4.3.3 參數(shù)分析
4.4 本章小結(jié)
5 短文本信息流話題檢測原型系統(tǒng)
5.1 系統(tǒng)架構(gòu)
5.2 話題檢測處理流程
5.3 應(yīng)用測試
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
在學(xué)研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于混合卡方統(tǒng)計量與邏輯回歸的文本情感分析[J]. 李平,戴月明,王艷. 計算機工程. 2017(12)
[2]基于WMD距離與近鄰傳播的新聞評論聚類[J]. 官賽萍,靳小龍,徐學(xué)可,伍大勇,賈巖濤,王元卓,劉悅. 中文信息學(xué)報. 2017(05)
[3]文本的圖表示初探[J]. 周昭濤,卜東波,程學(xué)旗. 中文信息學(xué)報. 2005(02)
本文編號:3178936
【文章來源】:中國人民公安大學(xué)北京市
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
引言
1 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 主題模型
1.2.2 表示學(xué)習(xí)
1.2.3 文本分類
1.3 研究內(nèi)容與論文結(jié)構(gòu)
1.3.1 主要研究內(nèi)容
1.3.2 論文結(jié)構(gòu)
2 基于語義距離的短文本數(shù)據(jù)增廣算法
2.1 文本數(shù)據(jù)增廣技術(shù)分析
2.1.1 文本數(shù)據(jù)增廣
2.1.2 詞-詞語義距離
2.1.3 文本相似度
2.2 基于語義距離的數(shù)據(jù)增廣算法
2.2.1 總體流程
2.2.2 構(gòu)建語義空間
2.2.3 語義距離計算
2.2.4 接受策略
2.3 算法驗證
2.3.1 實驗數(shù)據(jù)與預(yù)處理
2.3.2 實驗設(shè)置
2.3.3 實驗結(jié)果
2.3.4 實驗分析
2.4 本章小結(jié)
3 基于自編碼器的短文本OOD話題檢測算法
3.1 OOD檢測技術(shù)分析
3.2 基于自編碼器的OOD話題檢測算法
3.2.1 算法流程
3.2.2 短文本向量化
3.2.3 基于自編碼器的one-class分類
3.3 算法驗證
3.3.1 實驗數(shù)據(jù)
3.3.2 實驗設(shè)置
3.3.3 比較實驗
3.3.4 實驗分析
3.4 本章小結(jié)
4 CapSA神經(jīng)網(wǎng)絡(luò)短文本話題分類算法
4.1 文本話題分類技術(shù)分析
4.2 CapSA文本話題分類網(wǎng)絡(luò)模型
4.2.1 深度卷積膠囊網(wǎng)絡(luò)
4.2.2 自注意力網(wǎng)絡(luò)
4.2.3 話題分類網(wǎng)絡(luò)
4.3 算法驗證
4.3.1 實驗設(shè)置與實驗數(shù)據(jù)
4.3.2 實驗結(jié)果
4.3.3 參數(shù)分析
4.4 本章小結(jié)
5 短文本信息流話題檢測原型系統(tǒng)
5.1 系統(tǒng)架構(gòu)
5.2 話題檢測處理流程
5.3 應(yīng)用測試
5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
在學(xué)研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于混合卡方統(tǒng)計量與邏輯回歸的文本情感分析[J]. 李平,戴月明,王艷. 計算機工程. 2017(12)
[2]基于WMD距離與近鄰傳播的新聞評論聚類[J]. 官賽萍,靳小龍,徐學(xué)可,伍大勇,賈巖濤,王元卓,劉悅. 中文信息學(xué)報. 2017(05)
[3]文本的圖表示初探[J]. 周昭濤,卜東波,程學(xué)旗. 中文信息學(xué)報. 2005(02)
本文編號:3178936
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3178936.html
最近更新
教材專著