天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LDA和深度學習的短文本分類算法研究

發(fā)布時間:2021-08-26 01:39
  隨著互聯(lián)網(wǎng)的極速發(fā)展,人們獲得信息的方式不單單通過現(xiàn)實生活,更多的是以網(wǎng)絡(luò)的形式。網(wǎng)絡(luò)信息在日常生活中帶來了巨大的便捷性卻離不開文本分類技術(shù)的發(fā)展,如何將大規(guī)模雜亂無序的數(shù)據(jù)信息挖掘出其中的規(guī)律是迫切且有必要的。本文研究的方向為利用主題模型和深度學習模型將網(wǎng)絡(luò)上的短文本數(shù)據(jù)進行類別分類。本文提出的基于特征擴展的短文本分類算法中,對大規(guī)模的文本數(shù)據(jù)進行分詞過后,沒有直接采用常規(guī)停用詞表進行過濾,而是采用特定停用詞表的方式進行過濾。特定停用詞表是通過常規(guī)停用詞表、語料庫詞表以及主題模型共同產(chǎn)生的,使得文本保留了更多的有效語義特征。針對文檔集里存在特征稀疏以及文本詞數(shù)各不相同的問題,模型采用了基于短文本最大概率主題下對詞向量矩陣進行填充和融合層卷積神經(jīng)網(wǎng)絡(luò),一定程度上增加了短文本的有效語義特征。在基于特征擴展的短文本分類算法的基礎(chǔ)上進行了部分改進,將其中的卷積神經(jīng)網(wǎng)絡(luò)換成了雙向長短期記憶網(wǎng)絡(luò),并且增加了其余兩條特征通路,分別為潛在主題特征通路和加權(quán)表示通路。潛在主題特征通路由主題模型產(chǎn)生文本-主題特征向量。加權(quán)表示特征通路由詞頻-逆文檔頻率和詞向量加權(quán)求和,并一定程度上避免了分詞帶來的錯誤。... 

【文章來源】:重慶郵電大學重慶市

【文章頁數(shù)】:70 頁

【學位級別】:碩士

【部分圖文】:

基于LDA和深度學習的短文本分類算法研究


文本分類方式

文本分類,文本數(shù)據(jù),監(jiān)督學習,標簽


重慶郵電大學碩士學位論文第1章引言31.2國內(nèi)外研究現(xiàn)狀1.2.1文本分類發(fā)展階段文本分類經(jīng)歷了幾個非常重要的時期,大致上可以分為三個階段,如圖1.2所示。圖1.2文本分類發(fā)展階段它是一種有監(jiān)督學習,在事先將有標簽的文本數(shù)據(jù)集進行預(yù)處理過后,通過文本分類學習器進行訓(xùn)練。然后將經(jīng)過訓(xùn)練的學習器運用在未標注的測試集上,將測試集里的數(shù)據(jù)進行正確的歸類。文本分類技術(shù)能夠?qū)⒑A康奈谋緮?shù)據(jù)進行正確的歸類具有十分重要的意義,能夠幫助人們管理和挖掘重要的信息,如分類管理和信息抽取,是當下非常熱門的研究方向。在初期的可行性研究階段,隨著科技的不斷發(fā)展,信息檢索領(lǐng)域得到極大的發(fā)展。正是這個時期,文本分類也發(fā)展成為一門重要的學科,但是由于早期理論知識比較淺薄,所以在理論知識方面的探究占據(jù)主要部分。經(jīng)過不斷的探究,神經(jīng)網(wǎng)絡(luò)模型和空間向量模型相繼被提出,反向傳播的思想也正是這個時候應(yīng)運而生,這為以后的實踐發(fā)展打下了一個良好的基矗在中期的輔助分類研究階段,由于理論知識得到極大的豐富,慢慢的在文本分類實踐領(lǐng)域也得以發(fā)展。以專家知識和傳統(tǒng)知識工程相結(jié)合的有關(guān)技術(shù),雖然在性能上存在較大的不足,但是此套人工規(guī)則建立的算法為文本分類技術(shù)下一個階段的發(fā)展提供了有力的技術(shù)支持。

流程圖,文本,預(yù)處理,流程


重慶郵電大學碩士學位論文第2章相關(guān)基礎(chǔ)理論介紹9第2章相關(guān)基礎(chǔ)理論介紹本章介紹在進行短文本分類中需要運用的一些關(guān)鍵技術(shù),主要包括短文本表示方法以及基礎(chǔ)的深度學習分類模型,在此基礎(chǔ)上,詳細介紹了在模型訓(xùn)練中,主要采用的模型優(yōu)化方法,以此作為本文的理論基矗2.1短文本表示模型計算機語言與文本語言存在著巨大的差異,它是不能直接理解文本中的語義,所以計算機是不能夠直接對原始文本進行處理的。在對短文本進行分類之前,應(yīng)該將其進行數(shù)字化、向量化,即文本表示。在目前的文本向量化發(fā)展歷程中,有詞袋模型(BagsofWords,BOW)、詞嵌入模型等方法。2.1.1預(yù)處理文本的預(yù)處理是整個文本分類模型的基礎(chǔ),文本預(yù)處理主要分為三個流程,分別為數(shù)據(jù)清洗階段、分詞階段、去除停用詞階段。這三個階段缺一不可,它們能夠有效的將冗余繁雜的原始文本數(shù)據(jù)精簡化,如圖2.1所示。圖2.1文本預(yù)處理流程在預(yù)處理的數(shù)據(jù)清洗階段,主要是針對數(shù)據(jù)中無意義的部分進行濾除。在獲得帶有標題、摘要、正文、來源等屬性的數(shù)據(jù)過后,在特定任務(wù)的基礎(chǔ)上,通過

【參考文獻】:
期刊論文
[1]基于類別特征擴展的短文本分類方法研究[J]. 邵云飛,劉東蘇.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(09)
[2]面向不平衡數(shù)據(jù)集的一種改進的k-近鄰分類器[J]. 劉鵬,杜佳芝,呂偉剛,竇明武.  東北大學學報(自然科學版). 2019(07)
[3]基于多部情感詞典與SVM的電影評論情感分析[J]. 吳杰勝,陸奎,王詩兵.  阜陽師范學院學報(自然科學版). 2019(02)
[4]深度學習在文本表示及分類中的應(yīng)用研究[J]. 崔瑩.  電腦知識與技術(shù). 2019(16)
[5]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi).  Journal of Central South University. 2019(01)
[6]基于隨機森林的文本分類并行化[J]. 彭徵,王靈矯,郭華.  計算機科學. 2018(12)
[7]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌.  計算機應(yīng)用. 2018(11)
[8]卷積神經(jīng)網(wǎng)絡(luò)下的Twitter文本情感分析[J]. 王煜涵,張春云,趙寶林,襲肖明,耿蕾蕾,崔超然.  數(shù)據(jù)采集與處理. 2018(05)
[9]融合CNN和LDA的短文本分類研究[J]. 張小川,余林峰,桑瑞婷,張宜浩.  軟件工程. 2018(06)
[10]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生.  計算機與現(xiàn)代化. 2017(04)

碩士論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類研究[D]. 陶文靜.北京交通大學 2019



本文編號:3363283

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3363283.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶de771***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
99秋霞在线观看视频| 国产精品不卡免费视频| 欧美成人高清在线播放| 精品综合欧美一区二区三区| 欧美人妻一区二区三区| 日韩欧美一区二区不卡视频| 蜜臀人妻一区二区三区| 日韩精品一区二区三区射精| 欧美日韩亚洲精品在线观看| 日韩精品综合福利在线观看| 欧美人妻免费一区二区三区| 伊人网免费在线观看高清版| 国产午夜精品美女露脸视频| 成人午夜激情免费在线| 狠狠干狠狠操亚洲综合| 欧美精品女同一区二区| 国产精品一区二区有码| 狠狠做五月深爱婷婷综合| 国产亚洲欧美一区二区| 大胆裸体写真一区二区| 五月天六月激情联盟网| 在线观看那种视频你懂的| 午夜久久久精品国产精品| 免费精品一区二区三区| 国产成人国产精品国产三级| 国产在线一区二区免费| 91欧美一区二区三区成人| 暴力三级a特黄在线观看| 国产亚洲二区精品美女久久| 亚洲欧洲成人精品香蕉网| 东京热男人的天堂一二三区| 深夜福利欲求不满的人妻| 成年人黄片大全在线观看| 欧美日韩国产综合特黄| 国产免费一区二区不卡| 国产精品自拍杆香蕉视频| 狠狠干狠狠操在线播放| 出差被公高潮久久中文字幕| 亚洲午夜av久久久精品| 国产午夜精品美女露脸视频| 午夜传媒视频免费在线观看|