基于深度學(xué)習(xí)的文本表示與分類研究

發(fā)布時間：2021-01-27 20:57

　　隨著信息技術(shù)在人們?nèi)粘Ｉ钪械膹V泛應(yīng)用,文本信息正以指數(shù)形式增長,如何對海量文本信息進行有效管理,進而快速了解文本信息的價值成為了研究的焦點。其中,文本表示和文本分類是文本信息管理的關(guān)鍵技術(shù)。傳統(tǒng)文本表示采用統(tǒng)計學(xué)的方法,假設(shè)詞之間相互獨立,未考慮語義信息,提取的文本特征數(shù)據(jù)稀疏、維度高,丟失了大量的文本信息。如今,文本信息語義豐富,主題多樣對文本分類提出了更高的挑戰(zhàn),尤其是面對長文本的分類問題時,傳統(tǒng)淺層的文本分類器泛化能力一般,不能滿足分類管理要求。深度學(xué)習(xí)層與層之間特有的結(jié)構(gòu),可以從淺層或者中層特征中提取到高級特征,很好的解決了文本分類面臨的上述問題,為文本表示內(nèi)容的準(zhǔn)確提取和文本分類模型的精準(zhǔn)構(gòu)建提供了支持。本文應(yīng)用文本分類技術(shù),在研究深度學(xué)習(xí)各類算法基礎(chǔ)上,將深度學(xué)習(xí)有效的應(yīng)用到文本表示和文本分類中并進行深入研究,主要完成如下工作:（1）提出改進的Fasttext模型用于中文長文本分類,可解決Fasttext模型進行復(fù)雜的長文本分類工作時,丟失太多文本上下文的信息的問題。經(jīng)THUCNews數(shù)據(jù)集實驗分析,改進的Fasttext模型既保證了文本分類的準(zhǔn)確性,又降低了詞向量訓(xùn)練速...

【文章來源】：西安工程大學(xué)陜西省

【文章頁數(shù)】：66 頁

【學(xué)位級別】：碩士

【部分圖文】：

中文分詞結(jié)構(gòu)

流程圖,最大匹配法,正向,流程圖

圖 2-2 正向最大匹配法流程圖最大匹配法匹配法的基本思想與正向最大匹配法大同小異，不同的是為從右至左，當(dāng)匹配不成功時，去掉左邊字符。當(dāng)面臨歧向最大匹配相比正向最大匹配法得到更高查全率。最大匹配法匹配法是對分詞過程的檢查和修正，它結(jié)合了正向最大匹基本思想是對待切分詞的字符串分別采用正向最大匹配結(jié)果予以比較，若結(jié)果一致，則切分正確。若結(jié)果不一致新選擇切分方法。法法以概率論為基礎(chǔ)，將文本中出現(xiàn)的上下文字符串進行組大型語料庫對這一過程所需的參數(shù)進行訓(xùn)練并通過統(tǒng)計合頻率評估構(gòu)成詞語的概率。而字符串之間的相互信息作

流程圖,分詞系統(tǒng),流程圖,中文分詞

圖 2-3 Jieba 分詞系統(tǒng)流程圖（2）NLPIR 漢語分詞系統(tǒng)NLPIR 是以 ICTCLAS 漢語詞法分析為基礎(chǔ)，對原始文本內(nèi)容進行加工處理的一體化漢語分詞系統(tǒng)。當(dāng)前，NLPIR 可以顯示出中間件的處理效果，而且有中文分詞、英文分詞、詞性標(biāo)注、命名實體識別、新詞識別、關(guān)鍵詞提取、支持用戶專業(yè)的詞典和微博分析、支持多種編碼、支持多種操作系統(tǒng)和多種開發(fā)語言平臺等小型數(shù)據(jù)集處理工具的功能。（3）Paoding 中文分詞庫Paoding 中文分詞庫是使用 Java 語言開發(fā)，可結(jié)合 Lucene 應(yīng)用，為企業(yè)以及互聯(lián)網(wǎng)行業(yè)使用的中文搜索引擎開源組件。Paoding 中文分詞庫是國內(nèi)首個中文分詞開元組件，以更高效的服務(wù)和良好的用戶體驗為目標(biāo)。主要具有以下特點：1) 高效率：極大的提高了算法的查找效率；2) 高擴展性：停用詞的添加以及詞典擴充非常方便；3) 算法簡練：算法思路通俗易懂；

【參考文獻】：
期刊論文
[1]基于GloVe與SVM的文本分類研究[J]. 鄭亞南,田大鋼.  軟件導(dǎo)刊. 2018(06)
[2]基于Doc2vec和深度神經(jīng)網(wǎng)絡(luò)的中文文本情感傾向研究[J]. 王晨超,劉洋.  電子技術(shù)與軟件工程. 2018(10)
[3]自編碼器理論與方法綜述[J]. 賈文娟,張煜東.  計算機系統(tǒng)應(yīng)用. 2018(05)
[4]基于余弦相似度的改進C4.5決策樹算法[J]. 夏修臣,王秀英.  計算機工程與設(shè)計. 2018(01)
[5]段落及類別分布的特征選擇方法[J]. 楊鳳芹,樊娜,孫紅光,孫鐵利,彭楊.  小型微型計算機系統(tǒng). 2018(01)
[6]基于不同分詞模式的文本分類研究[J]. 孔希希,廖述魁,程兵.  數(shù)學(xué)的實踐與認(rèn)識. 2018(01)
[7]一種基于Tree-LSTM的句子相似度計算方法[J]. 楊萌,李培峰,朱巧明.  北京大學(xué)學(xué)報(自然科學(xué)版). 2018(03)
[8]基于詞義消歧的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 薛濤,王雅玲,穆楠.  計算機應(yīng)用研究. 2018(10)
[9]基于相關(guān)度的局部潛在語義分析算法研究[J]. 吳勇,劉鈺峰.  控制工程. 2017(08)
[10]基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J]. 馮興杰,張志偉,史金釧.  計算機應(yīng)用研究. 2018(05)

本文編號：3003719

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3003719.html

上一篇：“治風(fēng)法”在蕁麻疹治療中的應(yīng)用及實踐
下一篇：基于iPad的互動式教學(xué)在小學(xué)英語教學(xué)中的應(yīng)用研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的文本表示與分類研究