基于LDA和深度學習的短文本分類算法研究
發(fā)布時間:2021-08-26 01:39
隨著互聯網的極速發(fā)展,人們獲得信息的方式不單單通過現實生活,更多的是以網絡的形式。網絡信息在日常生活中帶來了巨大的便捷性卻離不開文本分類技術的發(fā)展,如何將大規(guī)模雜亂無序的數據信息挖掘出其中的規(guī)律是迫切且有必要的。本文研究的方向為利用主題模型和深度學習模型將網絡上的短文本數據進行類別分類。本文提出的基于特征擴展的短文本分類算法中,對大規(guī)模的文本數據進行分詞過后,沒有直接采用常規(guī)停用詞表進行過濾,而是采用特定停用詞表的方式進行過濾。特定停用詞表是通過常規(guī)停用詞表、語料庫詞表以及主題模型共同產生的,使得文本保留了更多的有效語義特征。針對文檔集里存在特征稀疏以及文本詞數各不相同的問題,模型采用了基于短文本最大概率主題下對詞向量矩陣進行填充和融合層卷積神經網絡,一定程度上增加了短文本的有效語義特征。在基于特征擴展的短文本分類算法的基礎上進行了部分改進,將其中的卷積神經網絡換成了雙向長短期記憶網絡,并且增加了其余兩條特征通路,分別為潛在主題特征通路和加權表示通路。潛在主題特征通路由主題模型產生文本-主題特征向量。加權表示特征通路由詞頻-逆文檔頻率和詞向量加權求和,并一定程度上避免了分詞帶來的錯誤。...
【文章來源】:重慶郵電大學重慶市
【文章頁數】:70 頁
【學位級別】:碩士
【部分圖文】:
文本分類方式
重慶郵電大學碩士學位論文第1章引言31.2國內外研究現狀1.2.1文本分類發(fā)展階段文本分類經歷了幾個非常重要的時期,大致上可以分為三個階段,如圖1.2所示。圖1.2文本分類發(fā)展階段它是一種有監(jiān)督學習,在事先將有標簽的文本數據集進行預處理過后,通過文本分類學習器進行訓練。然后將經過訓練的學習器運用在未標注的測試集上,將測試集里的數據進行正確的歸類。文本分類技術能夠將海量的文本數據進行正確的歸類具有十分重要的意義,能夠幫助人們管理和挖掘重要的信息,如分類管理和信息抽取,是當下非常熱門的研究方向。在初期的可行性研究階段,隨著科技的不斷發(fā)展,信息檢索領域得到極大的發(fā)展。正是這個時期,文本分類也發(fā)展成為一門重要的學科,但是由于早期理論知識比較淺薄,所以在理論知識方面的探究占據主要部分。經過不斷的探究,神經網絡模型和空間向量模型相繼被提出,反向傳播的思想也正是這個時候應運而生,這為以后的實踐發(fā)展打下了一個良好的基矗在中期的輔助分類研究階段,由于理論知識得到極大的豐富,慢慢的在文本分類實踐領域也得以發(fā)展。以專家知識和傳統(tǒng)知識工程相結合的有關技術,雖然在性能上存在較大的不足,但是此套人工規(guī)則建立的算法為文本分類技術下一個階段的發(fā)展提供了有力的技術支持。
重慶郵電大學碩士學位論文第2章相關基礎理論介紹9第2章相關基礎理論介紹本章介紹在進行短文本分類中需要運用的一些關鍵技術,主要包括短文本表示方法以及基礎的深度學習分類模型,在此基礎上,詳細介紹了在模型訓練中,主要采用的模型優(yōu)化方法,以此作為本文的理論基矗2.1短文本表示模型計算機語言與文本語言存在著巨大的差異,它是不能直接理解文本中的語義,所以計算機是不能夠直接對原始文本進行處理的。在對短文本進行分類之前,應該將其進行數字化、向量化,即文本表示。在目前的文本向量化發(fā)展歷程中,有詞袋模型(BagsofWords,BOW)、詞嵌入模型等方法。2.1.1預處理文本的預處理是整個文本分類模型的基礎,文本預處理主要分為三個流程,分別為數據清洗階段、分詞階段、去除停用詞階段。這三個階段缺一不可,它們能夠有效的將冗余繁雜的原始文本數據精簡化,如圖2.1所示。圖2.1文本預處理流程在預處理的數據清洗階段,主要是針對數據中無意義的部分進行濾除。在獲得帶有標題、摘要、正文、來源等屬性的數據過后,在特定任務的基礎上,通過
【參考文獻】:
期刊論文
[1]基于類別特征擴展的短文本分類方法研究[J]. 邵云飛,劉東蘇. 數據分析與知識發(fā)現. 2019(09)
[2]面向不平衡數據集的一種改進的k-近鄰分類器[J]. 劉鵬,杜佳芝,呂偉剛,竇明武. 東北大學學報(自然科學版). 2019(07)
[3]基于多部情感詞典與SVM的電影評論情感分析[J]. 吳杰勝,陸奎,王詩兵. 阜陽師范學院學報(自然科學版). 2019(02)
[4]深度學習在文本表示及分類中的應用研究[J]. 崔瑩. 電腦知識與技術. 2019(16)
[5]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[6]基于隨機森林的文本分類并行化[J]. 彭徵,王靈矯,郭華. 計算機科學. 2018(12)
[7]基于CNN和BiLSTM網絡特征融合的文本情感分析[J]. 李洋,董紅斌. 計算機應用. 2018(11)
[8]卷積神經網絡下的Twitter文本情感分析[J]. 王煜涵,張春云,趙寶林,襲肖明,耿蕾蕾,崔超然. 數據采集與處理. 2018(05)
[9]融合CNN和LDA的短文本分類研究[J]. 張小川,余林峰,桑瑞婷,張宜浩. 軟件工程. 2018(06)
[10]基于卷積神經網絡的互聯網短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現代化. 2017(04)
碩士論文
[1]基于卷積神經網絡的新聞文本分類研究[D]. 陶文靜.北京交通大學 2019
本文編號:3363283
【文章來源】:重慶郵電大學重慶市
【文章頁數】:70 頁
【學位級別】:碩士
【部分圖文】:
文本分類方式
重慶郵電大學碩士學位論文第1章引言31.2國內外研究現狀1.2.1文本分類發(fā)展階段文本分類經歷了幾個非常重要的時期,大致上可以分為三個階段,如圖1.2所示。圖1.2文本分類發(fā)展階段它是一種有監(jiān)督學習,在事先將有標簽的文本數據集進行預處理過后,通過文本分類學習器進行訓練。然后將經過訓練的學習器運用在未標注的測試集上,將測試集里的數據進行正確的歸類。文本分類技術能夠將海量的文本數據進行正確的歸類具有十分重要的意義,能夠幫助人們管理和挖掘重要的信息,如分類管理和信息抽取,是當下非常熱門的研究方向。在初期的可行性研究階段,隨著科技的不斷發(fā)展,信息檢索領域得到極大的發(fā)展。正是這個時期,文本分類也發(fā)展成為一門重要的學科,但是由于早期理論知識比較淺薄,所以在理論知識方面的探究占據主要部分。經過不斷的探究,神經網絡模型和空間向量模型相繼被提出,反向傳播的思想也正是這個時候應運而生,這為以后的實踐發(fā)展打下了一個良好的基矗在中期的輔助分類研究階段,由于理論知識得到極大的豐富,慢慢的在文本分類實踐領域也得以發(fā)展。以專家知識和傳統(tǒng)知識工程相結合的有關技術,雖然在性能上存在較大的不足,但是此套人工規(guī)則建立的算法為文本分類技術下一個階段的發(fā)展提供了有力的技術支持。
重慶郵電大學碩士學位論文第2章相關基礎理論介紹9第2章相關基礎理論介紹本章介紹在進行短文本分類中需要運用的一些關鍵技術,主要包括短文本表示方法以及基礎的深度學習分類模型,在此基礎上,詳細介紹了在模型訓練中,主要采用的模型優(yōu)化方法,以此作為本文的理論基矗2.1短文本表示模型計算機語言與文本語言存在著巨大的差異,它是不能直接理解文本中的語義,所以計算機是不能夠直接對原始文本進行處理的。在對短文本進行分類之前,應該將其進行數字化、向量化,即文本表示。在目前的文本向量化發(fā)展歷程中,有詞袋模型(BagsofWords,BOW)、詞嵌入模型等方法。2.1.1預處理文本的預處理是整個文本分類模型的基礎,文本預處理主要分為三個流程,分別為數據清洗階段、分詞階段、去除停用詞階段。這三個階段缺一不可,它們能夠有效的將冗余繁雜的原始文本數據精簡化,如圖2.1所示。圖2.1文本預處理流程在預處理的數據清洗階段,主要是針對數據中無意義的部分進行濾除。在獲得帶有標題、摘要、正文、來源等屬性的數據過后,在特定任務的基礎上,通過
【參考文獻】:
期刊論文
[1]基于類別特征擴展的短文本分類方法研究[J]. 邵云飛,劉東蘇. 數據分析與知識發(fā)現. 2019(09)
[2]面向不平衡數據集的一種改進的k-近鄰分類器[J]. 劉鵬,杜佳芝,呂偉剛,竇明武. 東北大學學報(自然科學版). 2019(07)
[3]基于多部情感詞典與SVM的電影評論情感分析[J]. 吳杰勝,陸奎,王詩兵. 阜陽師范學院學報(自然科學版). 2019(02)
[4]深度學習在文本表示及分類中的應用研究[J]. 崔瑩. 電腦知識與技術. 2019(16)
[5]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[6]基于隨機森林的文本分類并行化[J]. 彭徵,王靈矯,郭華. 計算機科學. 2018(12)
[7]基于CNN和BiLSTM網絡特征融合的文本情感分析[J]. 李洋,董紅斌. 計算機應用. 2018(11)
[8]卷積神經網絡下的Twitter文本情感分析[J]. 王煜涵,張春云,趙寶林,襲肖明,耿蕾蕾,崔超然. 數據采集與處理. 2018(05)
[9]融合CNN和LDA的短文本分類研究[J]. 張小川,余林峰,桑瑞婷,張宜浩. 軟件工程. 2018(06)
[10]基于卷積神經網絡的互聯網短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現代化. 2017(04)
碩士論文
[1]基于卷積神經網絡的新聞文本分類研究[D]. 陶文靜.北京交通大學 2019
本文編號:3363283
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3363283.html
最近更新
教材專著