天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

短文本信息流話題檢測技術(shù)研究

發(fā)布時間:2021-05-10 07:14
  為解決短文本信息稀疏性、話題開放性等問題,提高話題檢測性能,論文以短文本信息流為研究對象,通過分析相關(guān)的機器學(xué)習(xí)與自然語言處理技術(shù),提出了針對短文本信息流話題檢測中幾個關(guān)鍵步驟的算法。論文的主要工作與結(jié)論如下:針對短文本信息稀疏性的問題,論文借鑒了統(tǒng)計學(xué)中自助抽樣法的思想,提出了基于語義距離的短文本數(shù)據(jù)增廣算法;該算法通過文本相似度和詞-詞距離的計算,擴展文本特征。通過與其他幾種文本數(shù)據(jù)增廣方法的比較,驗證了論文提出的數(shù)據(jù)增廣算法可以提高話題分類的準(zhǔn)確性,也證明了在不借助外部應(yīng)用和外部知識的情況下,利用語料自身,依然可以實現(xiàn)有效的短文本數(shù)據(jù)增廣,從而讓分類器學(xué)習(xí)更多的特征,提高模型的泛化能力。針對短文本信息話題開放性的問題,論文提出了基于自編碼器的未定義話題檢測算法。該算法利用在分類網(wǎng)絡(luò)上預(yù)訓(xùn)練的文本向量表示訓(xùn)練自編碼器,利用重構(gòu)損失的大小過濾未定義話題短文本。實驗比較了該算法和幾種one-class分類算法檢測性能,驗證了論文提出的算法提高了未定義話題檢測的準(zhǔn)確性,也證明了自編碼器不僅能夠應(yīng)用于圖像處理、視頻監(jiān)控等領(lǐng)域的異常檢測中,也能應(yīng)用于未定義話題文本的檢測。針對短文本建模的問題... 

【文章來源】:中國人民公安大學(xué)北京市

【文章頁數(shù)】:70 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
引言
1 緒論
    1.1 研究背景與意義
    1.2 研究現(xiàn)狀
        1.2.1 主題模型
        1.2.2 表示學(xué)習(xí)
        1.2.3 文本分類
    1.3 研究內(nèi)容與論文結(jié)構(gòu)
        1.3.1 主要研究內(nèi)容
        1.3.2 論文結(jié)構(gòu)
2 基于語義距離的短文本數(shù)據(jù)增廣算法
    2.1 文本數(shù)據(jù)增廣技術(shù)分析
        2.1.1 文本數(shù)據(jù)增廣
        2.1.2 詞-詞語義距離
        2.1.3 文本相似度
    2.2 基于語義距離的數(shù)據(jù)增廣算法
        2.2.1 總體流程
        2.2.2 構(gòu)建語義空間
        2.2.3 語義距離計算
        2.2.4 接受策略
    2.3 算法驗證
        2.3.1 實驗數(shù)據(jù)與預(yù)處理
        2.3.2 實驗設(shè)置
        2.3.3 實驗結(jié)果
        2.3.4 實驗分析
    2.4 本章小結(jié)
3 基于自編碼器的短文本OOD話題檢測算法
    3.1 OOD檢測技術(shù)分析
    3.2 基于自編碼器的OOD話題檢測算法
        3.2.1 算法流程
        3.2.2 短文本向量化
        3.2.3 基于自編碼器的one-class分類
    3.3 算法驗證
        3.3.1 實驗數(shù)據(jù)
        3.3.2 實驗設(shè)置
        3.3.3 比較實驗
        3.3.4 實驗分析
    3.4 本章小結(jié)
4 CapSA神經(jīng)網(wǎng)絡(luò)短文本話題分類算法
    4.1 文本話題分類技術(shù)分析
    4.2 CapSA文本話題分類網(wǎng)絡(luò)模型
        4.2.1 深度卷積膠囊網(wǎng)絡(luò)
        4.2.2 自注意力網(wǎng)絡(luò)
        4.2.3 話題分類網(wǎng)絡(luò)
    4.3 算法驗證
        4.3.1 實驗設(shè)置與實驗數(shù)據(jù)
        4.3.2 實驗結(jié)果
        4.3.3 參數(shù)分析
    4.4 本章小結(jié)
5 短文本信息流話題檢測原型系統(tǒng)
    5.1 系統(tǒng)架構(gòu)
    5.2 話題檢測處理流程
    5.3 應(yīng)用測試
    5.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
在學(xué)研究成果
致謝


【參考文獻(xiàn)】:
期刊論文
[1]基于混合卡方統(tǒng)計量與邏輯回歸的文本情感分析[J]. 李平,戴月明,王艷.  計算機工程. 2017(12)
[2]基于WMD距離與近鄰傳播的新聞評論聚類[J]. 官賽萍,靳小龍,徐學(xué)可,伍大勇,賈巖濤,王元卓,劉悅.  中文信息學(xué)報. 2017(05)
[3]文本的圖表示初探[J]. 周昭濤,卜東波,程學(xué)旗.  中文信息學(xué)報. 2005(02)



本文編號:3178936

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3178936.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3ec80***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com