天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型的短文本分類方法研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-04-17 14:47
  近年來,伴隨互聯(lián)網(wǎng)的快速發(fā)展以及生活節(jié)奏的加快,人們?cè)絹碓搅?xí)慣于從互聯(lián)網(wǎng)平臺(tái)中獲取和分享信息,這也導(dǎo)致網(wǎng)絡(luò)中產(chǎn)生了大量的短文本信息。一些內(nèi)容分發(fā)、信息檢索、社交網(wǎng)絡(luò)平臺(tái),均是產(chǎn)生短文本信息的來源。如果我們能從海量的信息中提取相關(guān)主題并將其分門別類,可以從一定程度上減輕信息過載對(duì)我們的影響。因此,如何有效提取信息的主題并進(jìn)行快速分類日益受到研究者的關(guān)注。短文本分類目前面臨的主要困難在于文本自身長度太短,導(dǎo)致提取的特征過于稀少、上下文信息量偏少等問題。由于通過外部語料和知識(shí)庫對(duì)短文本進(jìn)行特征擴(kuò)展時(shí),不僅擴(kuò)展所需的時(shí)間過長,還容易引入噪聲數(shù)據(jù)。此外,傳統(tǒng)的向量空間模型和機(jī)器學(xué)習(xí)分類算法直接應(yīng)用到短文本分類上效果不甚理想。針對(duì)短文本特征過于稀疏,使用外部語料進(jìn)行特征擴(kuò)展時(shí)容易引入噪聲數(shù)據(jù)的問題,采用了一種基于主題模型的特征擴(kuò)展方式,該方式利用WTTM模型來獲取主題–詞分布,并通過該分布來完成對(duì)短文本內(nèi)容上的主題特征擴(kuò)展。針對(duì)擴(kuò)展特征與原特征的差異,在計(jì)算被擴(kuò)展特征的特征權(quán)重時(shí),融入擴(kuò)展特征與原特征的語義相似性,使兩者特征之間的語義聯(lián)系更加緊密,從而使文本分類的結(jié)果更加準(zhǔn)確。綜上,提出一種詞向量... 

【文章來源】:重慶郵電大學(xué)重慶市

【文章頁數(shù)】:64 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于主題模型的短文本分類方法研究與實(shí)現(xiàn)


短文本分類驗(yàn)證原型系統(tǒng)文本處理界面

界面圖,短文,文本,原型


重慶郵電大學(xué)碩士學(xué)位論文第5章短文本分類驗(yàn)證原型系統(tǒng)43圖5.6短文本分類驗(yàn)證原型系統(tǒng)文本擴(kuò)展界面圖5.7所展示的是短文本分類驗(yàn)證原型系統(tǒng)文本分類界面,文本分類模塊是短文本分類驗(yàn)證原型系統(tǒng)中的核心功能,在該模塊的界面中,主要有加載分類模型、開始分類、分類結(jié)果三個(gè)操作,加載分類模型主要是調(diào)用已經(jīng)訓(xùn)練好的分類模型,然后在點(diǎn)擊開始分類后,便開始對(duì)需要分類的文本在后臺(tái)利用本文的文本表示方法進(jìn)行文本表示,接著投入已經(jīng)訓(xùn)練好的分類器中,使其可以進(jìn)行文本分類的后續(xù)操作,最后將分類結(jié)果顯示在另一個(gè)文件夾中。分類結(jié)果是為了給用戶直接打開分類結(jié)果所處的文件夾,并提供查看。圖5.7短文本分類驗(yàn)證原型系統(tǒng)文本分類界面

界面圖,短文,文本分類,原型


重慶郵電大學(xué)碩士學(xué)位論文第5章短文本分類驗(yàn)證原型系統(tǒng)43圖5.6短文本分類驗(yàn)證原型系統(tǒng)文本擴(kuò)展界面圖5.7所展示的是短文本分類驗(yàn)證原型系統(tǒng)文本分類界面,文本分類模塊是短文本分類驗(yàn)證原型系統(tǒng)中的核心功能,在該模塊的界面中,主要有加載分類模型、開始分類、分類結(jié)果三個(gè)操作,加載分類模型主要是調(diào)用已經(jīng)訓(xùn)練好的分類模型,然后在點(diǎn)擊開始分類后,便開始對(duì)需要分類的文本在后臺(tái)利用本文的文本表示方法進(jìn)行文本表示,接著投入已經(jīng)訓(xùn)練好的分類器中,使其可以進(jìn)行文本分類的后續(xù)操作,最后將分類結(jié)果顯示在另一個(gè)文件夾中。分類結(jié)果是為了給用戶直接打開分類結(jié)果所處的文件夾,并提供查看。圖5.7短文本分類驗(yàn)證原型系統(tǒng)文本分類界面

【參考文獻(xiàn)】:
期刊論文
[1]基于類別特征擴(kuò)展的短文本分類方法研究[J]. 邵云飛,劉東蘇.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019(09)
[2]全卷積神經(jīng)網(wǎng)絡(luò)的字符級(jí)文本分類方法[J]. 張曼,夏戰(zhàn)國,劉兵,周勇.  計(jì)算機(jī)工程與應(yīng)用. 2020(05)
[3]融合詞向量及BTM模型的問題分類方法[J]. 黃賢英,謝晉,龍姝言.  計(jì)算機(jī)工程與設(shè)計(jì). 2019(02)
[4]面向LDA主題模型的文本分類研究進(jìn)展與趨勢[J]. 趙樂,張興旺.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(08)
[5]基于k最近鄰和改進(jìn)TF-IDF的文本分類框架[J]. 龔靜,黃欣陽.  計(jì)算機(jī)工程與設(shè)計(jì). 2018(05)
[6]基于神經(jīng)網(wǎng)絡(luò)的文本表示模型新方法[J]. 曾誰飛,張笑燕,杜曉峰,陸天波.  通信學(xué)報(bào). 2017(04)
[7]維基百科在多種類型數(shù)字文本資源自動(dòng)分類中的應(yīng)用[J]. 李湘東,劉康,高凡.  情報(bào)科學(xué). 2017(02)
[8]詞向量與LDA相融合的短文本分類方法[J]. 張群,王紅軍,王倫文.  現(xiàn)代圖書情報(bào)技術(shù). 2016(12)
[9]基于知網(wǎng)語義特征擴(kuò)展的題名信息分類[J]. 李湘東,劉康,丁叢,廖香鵬.  圖書館雜志. 2017(02)
[10]基于樸素貝葉斯的文本分類研究綜述[J]. 賀鳴,孫建軍,成穎.  情報(bào)科學(xué). 2016(07)

碩士論文
[1]基于維基百科的文本樣本擴(kuò)展方法及其應(yīng)用研究[D]. 劉懿霆.上海大學(xué) 2018



本文編號(hào):3143638

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3143638.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶220f4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com