基于深度學(xué)習(xí)的文本表示與分類研究
發(fā)布時(shí)間:2021-01-27 20:57
隨著信息技術(shù)在人們?nèi)粘I钪械膹V泛應(yīng)用,文本信息正以指數(shù)形式增長,如何對(duì)海量文本信息進(jìn)行有效管理,進(jìn)而快速了解文本信息的價(jià)值成為了研究的焦點(diǎn)。其中,文本表示和文本分類是文本信息管理的關(guān)鍵技術(shù)。傳統(tǒng)文本表示采用統(tǒng)計(jì)學(xué)的方法,假設(shè)詞之間相互獨(dú)立,未考慮語義信息,提取的文本特征數(shù)據(jù)稀疏、維度高,丟失了大量的文本信息。如今,文本信息語義豐富,主題多樣對(duì)文本分類提出了更高的挑戰(zhàn),尤其是面對(duì)長文本的分類問題時(shí),傳統(tǒng)淺層的文本分類器泛化能力一般,不能滿足分類管理要求。深度學(xué)習(xí)層與層之間特有的結(jié)構(gòu),可以從淺層或者中層特征中提取到高級(jí)特征,很好的解決了文本分類面臨的上述問題,為文本表示內(nèi)容的準(zhǔn)確提取和文本分類模型的精準(zhǔn)構(gòu)建提供了支持。本文應(yīng)用文本分類技術(shù),在研究深度學(xué)習(xí)各類算法基礎(chǔ)上,將深度學(xué)習(xí)有效的應(yīng)用到文本表示和文本分類中并進(jìn)行深入研究,主要完成如下工作:(1)提出改進(jìn)的Fasttext模型用于中文長文本分類,可解決Fasttext模型進(jìn)行復(fù)雜的長文本分類工作時(shí),丟失太多文本上下文的信息的問題。經(jīng)THUCNews數(shù)據(jù)集實(shí)驗(yàn)分析,改進(jìn)的Fasttext模型既保證了文本分類的準(zhǔn)確性,又降低了詞向量訓(xùn)練速...
【文章來源】:西安工程大學(xué)陜西省
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中文分詞結(jié)構(gòu)
圖 2-2 正向最大匹配法流程圖最大匹配法匹配法的基本思想與正向最大匹配法大同小異,不同的是為從右至左,當(dāng)匹配不成功時(shí),去掉左邊字符。當(dāng)面臨歧向最大匹配相比正向最大匹配法得到更高查全率。最大匹配法匹配法是對(duì)分詞過程的檢查和修正,它結(jié)合了正向最大匹基本思想是對(duì)待切分詞的字符串分別采用正向最大匹配結(jié)果予以比較,若結(jié)果一致,則切分正確。若結(jié)果不一致新選擇切分方法。法法以概率論為基礎(chǔ),將文本中出現(xiàn)的上下文字符串進(jìn)行組大型語料庫對(duì)這一過程所需的參數(shù)進(jìn)行訓(xùn)練并通過統(tǒng)計(jì)合頻率評(píng)估構(gòu)成詞語的概率。而字符串之間的相互信息作
圖 2-3 Jieba 分詞系統(tǒng)流程圖(2)NLPIR 漢語分詞系統(tǒng)NLPIR 是以 ICTCLAS 漢語詞法分析為基礎(chǔ),對(duì)原始文本內(nèi)容進(jìn)行加工處理的一體化漢語分詞系統(tǒng)。當(dāng)前,NLPIR 可以顯示出中間件的處理效果,而且有中文分詞、英文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別、關(guān)鍵詞提取、支持用戶專業(yè)的詞典和微博分析、支持多種編碼、支持多種操作系統(tǒng)和多種開發(fā)語言平臺(tái)等小型數(shù)據(jù)集處理工具的功能。(3)Paoding 中文分詞庫Paoding 中文分詞庫是使用 Java 語言開發(fā),可結(jié)合 Lucene 應(yīng)用,為企業(yè)以及互聯(lián)網(wǎng)行業(yè)使用的中文搜索引擎開源組件。Paoding 中文分詞庫是國內(nèi)首個(gè)中文分詞開元組件,以更高效的服務(wù)和良好的用戶體驗(yàn)為目標(biāo)。主要具有以下特點(diǎn):1) 高效率:極大的提高了算法的查找效率;2) 高擴(kuò)展性:停用詞的添加以及詞典擴(kuò)充非常方便;3) 算法簡練:算法思路通俗易懂;
【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe與SVM的文本分類研究[J]. 鄭亞南,田大鋼. 軟件導(dǎo)刊. 2018(06)
[2]基于Doc2vec和深度神經(jīng)網(wǎng)絡(luò)的中文文本情感傾向研究[J]. 王晨超,劉洋. 電子技術(shù)與軟件工程. 2018(10)
[3]自編碼器理論與方法綜述[J]. 賈文娟,張煜東. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(05)
[4]基于余弦相似度的改進(jìn)C4.5決策樹算法[J]. 夏修臣,王秀英. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(01)
[5]段落及類別分布的特征選擇方法[J]. 楊鳳芹,樊娜,孫紅光,孫鐵利,彭?xiàng)? 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
[6]基于不同分詞模式的文本分類研究[J]. 孔希希,廖述魁,程兵. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2018(01)
[7]一種基于Tree-LSTM的句子相似度計(jì)算方法[J]. 楊萌,李培峰,朱巧明. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[8]基于詞義消歧的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 薛濤,王雅玲,穆楠. 計(jì)算機(jī)應(yīng)用研究. 2018(10)
[9]基于相關(guān)度的局部潛在語義分析算法研究[J]. 吳勇,劉鈺峰. 控制工程. 2017(08)
[10]基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J]. 馮興杰,張志偉,史金釧. 計(jì)算機(jī)應(yīng)用研究. 2018(05)
本文編號(hào):3003719
【文章來源】:西安工程大學(xué)陜西省
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中文分詞結(jié)構(gòu)
圖 2-2 正向最大匹配法流程圖最大匹配法匹配法的基本思想與正向最大匹配法大同小異,不同的是為從右至左,當(dāng)匹配不成功時(shí),去掉左邊字符。當(dāng)面臨歧向最大匹配相比正向最大匹配法得到更高查全率。最大匹配法匹配法是對(duì)分詞過程的檢查和修正,它結(jié)合了正向最大匹基本思想是對(duì)待切分詞的字符串分別采用正向最大匹配結(jié)果予以比較,若結(jié)果一致,則切分正確。若結(jié)果不一致新選擇切分方法。法法以概率論為基礎(chǔ),將文本中出現(xiàn)的上下文字符串進(jìn)行組大型語料庫對(duì)這一過程所需的參數(shù)進(jìn)行訓(xùn)練并通過統(tǒng)計(jì)合頻率評(píng)估構(gòu)成詞語的概率。而字符串之間的相互信息作
圖 2-3 Jieba 分詞系統(tǒng)流程圖(2)NLPIR 漢語分詞系統(tǒng)NLPIR 是以 ICTCLAS 漢語詞法分析為基礎(chǔ),對(duì)原始文本內(nèi)容進(jìn)行加工處理的一體化漢語分詞系統(tǒng)。當(dāng)前,NLPIR 可以顯示出中間件的處理效果,而且有中文分詞、英文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別、關(guān)鍵詞提取、支持用戶專業(yè)的詞典和微博分析、支持多種編碼、支持多種操作系統(tǒng)和多種開發(fā)語言平臺(tái)等小型數(shù)據(jù)集處理工具的功能。(3)Paoding 中文分詞庫Paoding 中文分詞庫是使用 Java 語言開發(fā),可結(jié)合 Lucene 應(yīng)用,為企業(yè)以及互聯(lián)網(wǎng)行業(yè)使用的中文搜索引擎開源組件。Paoding 中文分詞庫是國內(nèi)首個(gè)中文分詞開元組件,以更高效的服務(wù)和良好的用戶體驗(yàn)為目標(biāo)。主要具有以下特點(diǎn):1) 高效率:極大的提高了算法的查找效率;2) 高擴(kuò)展性:停用詞的添加以及詞典擴(kuò)充非常方便;3) 算法簡練:算法思路通俗易懂;
【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe與SVM的文本分類研究[J]. 鄭亞南,田大鋼. 軟件導(dǎo)刊. 2018(06)
[2]基于Doc2vec和深度神經(jīng)網(wǎng)絡(luò)的中文文本情感傾向研究[J]. 王晨超,劉洋. 電子技術(shù)與軟件工程. 2018(10)
[3]自編碼器理論與方法綜述[J]. 賈文娟,張煜東. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(05)
[4]基于余弦相似度的改進(jìn)C4.5決策樹算法[J]. 夏修臣,王秀英. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(01)
[5]段落及類別分布的特征選擇方法[J]. 楊鳳芹,樊娜,孫紅光,孫鐵利,彭?xiàng)? 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
[6]基于不同分詞模式的文本分類研究[J]. 孔希希,廖述魁,程兵. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2018(01)
[7]一種基于Tree-LSTM的句子相似度計(jì)算方法[J]. 楊萌,李培峰,朱巧明. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[8]基于詞義消歧的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 薛濤,王雅玲,穆楠. 計(jì)算機(jī)應(yīng)用研究. 2018(10)
[9]基于相關(guān)度的局部潛在語義分析算法研究[J]. 吳勇,劉鈺峰. 控制工程. 2017(08)
[10]基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J]. 馮興杰,張志偉,史金釧. 計(jì)算機(jī)應(yīng)用研究. 2018(05)
本文編號(hào):3003719
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3003719.html
最近更新
教材專著