天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于深度學(xué)習(xí)的文本表示與分類研究

發(fā)布時(shí)間:2021-01-27 20:57
  隨著信息技術(shù)在人們?nèi)粘I钪械膹V泛應(yīng)用,文本信息正以指數(shù)形式增長,如何對(duì)海量文本信息進(jìn)行有效管理,進(jìn)而快速了解文本信息的價(jià)值成為了研究的焦點(diǎn)。其中,文本表示和文本分類是文本信息管理的關(guān)鍵技術(shù)。傳統(tǒng)文本表示采用統(tǒng)計(jì)學(xué)的方法,假設(shè)詞之間相互獨(dú)立,未考慮語義信息,提取的文本特征數(shù)據(jù)稀疏、維度高,丟失了大量的文本信息。如今,文本信息語義豐富,主題多樣對(duì)文本分類提出了更高的挑戰(zhàn),尤其是面對(duì)長文本的分類問題時(shí),傳統(tǒng)淺層的文本分類器泛化能力一般,不能滿足分類管理要求。深度學(xué)習(xí)層與層之間特有的結(jié)構(gòu),可以從淺層或者中層特征中提取到高級(jí)特征,很好的解決了文本分類面臨的上述問題,為文本表示內(nèi)容的準(zhǔn)確提取和文本分類模型的精準(zhǔn)構(gòu)建提供了支持。本文應(yīng)用文本分類技術(shù),在研究深度學(xué)習(xí)各類算法基礎(chǔ)上,將深度學(xué)習(xí)有效的應(yīng)用到文本表示和文本分類中并進(jìn)行深入研究,主要完成如下工作:(1)提出改進(jìn)的Fasttext模型用于中文長文本分類,可解決Fasttext模型進(jìn)行復(fù)雜的長文本分類工作時(shí),丟失太多文本上下文的信息的問題。經(jīng)THUCNews數(shù)據(jù)集實(shí)驗(yàn)分析,改進(jìn)的Fasttext模型既保證了文本分類的準(zhǔn)確性,又降低了詞向量訓(xùn)練速... 

【文章來源】:西安工程大學(xué)陜西省

【文章頁數(shù)】:66 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的文本表示與分類研究


中文分詞結(jié)構(gòu)

流程圖,最大匹配法,正向,流程圖


圖 2-2 正向最大匹配法流程圖最大匹配法匹配法的基本思想與正向最大匹配法大同小異,不同的是為從右至左,當(dāng)匹配不成功時(shí),去掉左邊字符。當(dāng)面臨歧向最大匹配相比正向最大匹配法得到更高查全率。最大匹配法匹配法是對(duì)分詞過程的檢查和修正,它結(jié)合了正向最大匹基本思想是對(duì)待切分詞的字符串分別采用正向最大匹配結(jié)果予以比較,若結(jié)果一致,則切分正確。若結(jié)果不一致新選擇切分方法。法法以概率論為基礎(chǔ),將文本中出現(xiàn)的上下文字符串進(jìn)行組大型語料庫對(duì)這一過程所需的參數(shù)進(jìn)行訓(xùn)練并通過統(tǒng)計(jì)合頻率評(píng)估構(gòu)成詞語的概率。而字符串之間的相互信息作

流程圖,分詞系統(tǒng),流程圖,中文分詞


圖 2-3 Jieba 分詞系統(tǒng)流程圖(2)NLPIR 漢語分詞系統(tǒng)NLPIR 是以 ICTCLAS 漢語詞法分析為基礎(chǔ),對(duì)原始文本內(nèi)容進(jìn)行加工處理的一體化漢語分詞系統(tǒng)。當(dāng)前,NLPIR 可以顯示出中間件的處理效果,而且有中文分詞、英文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別、關(guān)鍵詞提取、支持用戶專業(yè)的詞典和微博分析、支持多種編碼、支持多種操作系統(tǒng)和多種開發(fā)語言平臺(tái)等小型數(shù)據(jù)集處理工具的功能。(3)Paoding 中文分詞庫Paoding 中文分詞庫是使用 Java 語言開發(fā),可結(jié)合 Lucene 應(yīng)用,為企業(yè)以及互聯(lián)網(wǎng)行業(yè)使用的中文搜索引擎開源組件。Paoding 中文分詞庫是國內(nèi)首個(gè)中文分詞開元組件,以更高效的服務(wù)和良好的用戶體驗(yàn)為目標(biāo)。主要具有以下特點(diǎn):1) 高效率:極大的提高了算法的查找效率;2) 高擴(kuò)展性:停用詞的添加以及詞典擴(kuò)充非常方便;3) 算法簡練:算法思路通俗易懂;

【參考文獻(xiàn)】:
期刊論文
[1]基于GloVe與SVM的文本分類研究[J]. 鄭亞南,田大鋼.  軟件導(dǎo)刊. 2018(06)
[2]基于Doc2vec和深度神經(jīng)網(wǎng)絡(luò)的中文文本情感傾向研究[J]. 王晨超,劉洋.  電子技術(shù)與軟件工程. 2018(10)
[3]自編碼器理論與方法綜述[J]. 賈文娟,張煜東.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(05)
[4]基于余弦相似度的改進(jìn)C4.5決策樹算法[J]. 夏修臣,王秀英.  計(jì)算機(jī)工程與設(shè)計(jì). 2018(01)
[5]段落及類別分布的特征選擇方法[J]. 楊鳳芹,樊娜,孫紅光,孫鐵利,彭?xiàng)?  小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
[6]基于不同分詞模式的文本分類研究[J]. 孔希希,廖述魁,程兵.  數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2018(01)
[7]一種基于Tree-LSTM的句子相似度計(jì)算方法[J]. 楊萌,李培峰,朱巧明.  北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(03)
[8]基于詞義消歧的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 薛濤,王雅玲,穆楠.  計(jì)算機(jī)應(yīng)用研究. 2018(10)
[9]基于相關(guān)度的局部潛在語義分析算法研究[J]. 吳勇,劉鈺峰.  控制工程. 2017(08)
[10]基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J]. 馮興杰,張志偉,史金釧.  計(jì)算機(jī)應(yīng)用研究. 2018(05)



本文編號(hào):3003719

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3003719.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6df63***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
一个人的久久精彩视频| 日韩精品视频香蕉视频| 亚洲一区二区三区有码| 国产熟女一区二区不卡| 激情偷拍一区二区三区视频| 欧美一区二区在线日韩| 国产一级一片内射视频在线| 91精品欧美综合在ⅹ| 久久精品国产亚洲av麻豆尤物| 老鸭窝精彩从这里蔓延| 国产精品一区二区三区日韩av| 欧美日韩国产一级91| 成人午夜视频在线播放| 99久久精品午夜一区二区| 激情综合五月开心久久| 国产精品二区三区免费播放心| 国产一区二区三区成人精品| 亚洲一区二区欧美在线| 国产一区二区三区色噜噜| 欧美人妻免费一区二区三区| 国产免费一区二区三区av大片| 欧美日韩一区二区综合| 亚洲天堂国产精品久久精品| 亚洲精品中文字幕一二三| 成人精品亚洲欧美日韩| 在线观看视频日韩精品| 欧美日韩精品综合在线| 日韩三极片在线免费播放| 欧美一区二区口爆吞精| 欧美日韩国产黑人一区| 91亚洲国产—区=区a| 亚洲精品成人福利在线| 麻豆印象传媒在线观看| 色婷婷视频免费在线观看| 日韩特级黄片免费在线观看| 国产小青蛙全集免费看| 欧美人妻盗摄日韩偷拍| 久久热在线视频免费观看| 午夜国产精品国自产拍av| 欧美日韩精品一区免费| 国产成人综合亚洲欧美日韩|