融合主題模型與詞向量的短文本分類方法研究

發(fā)布時間：2022-01-13 09:00

　　互聯(lián)網(wǎng)技術(shù)在近年來得到了飛速的發(fā)展,人們學習與生活的方式也不斷發(fā)生著變化,由互聯(lián)網(wǎng)產(chǎn)生的內(nèi)容信息數(shù)量呈現(xiàn)爆炸式的增長。為適應(yīng)移動端碎片化的使用場景,以網(wǎng)絡(luò)新聞、商品評論等形式出現(xiàn)的短文本內(nèi)容信息成為文本數(shù)據(jù)在互聯(lián)網(wǎng)內(nèi)容中的主要呈現(xiàn)形式。面對海量的短文本數(shù)據(jù),對短文本進行有效的分類不僅可以顯著的縮小數(shù)據(jù)規(guī)模,精確的理解文本信息的內(nèi)容,也對新聞推送、流量分發(fā)等領(lǐng)域有著重要的影響。由于短文本數(shù)據(jù)具有詞匯量少,信息單元不密集的特點,傳統(tǒng)的長文本分類方法難以直接取得良好的分類效果。針對此問題,本文提出了一種融合主題模型與詞向量模型的短文本分類方法,該方法使用改進后的TF-IDF模型與詞向量模型構(gòu)建類別關(guān)鍵詞集,并利用類別關(guān)鍵詞集對待擴展詞匯的類別辨識度進行判斷,最后通過詞向量余弦相似度的計算完成對短文本內(nèi)容上的擴充。使用LDA模型構(gòu)建類別主題分布集,完成對短文本詞匯表征在主題粒度下的擴展,由于將類別特征引入至短文本擴充中來,本文所提出的方法在一定程度上避免了傳統(tǒng)短文本內(nèi)容擴展方法中的無效擴充問題,提升了短文本擴充的有效性。在文本分類階段,本文改進了基于深度學習網(wǎng)絡(luò)TextCNN文本分類方法,對卷...

【文章來源】：西安電子科技大學陜西省 211工程院校教育部直屬院校

【文章頁數(shù)】：82 頁

【學位級別】：碩士

【部分圖文】：

LDA模型圖

模型圖,模型圖,詞匯,對詞

3）詞向量模型經(jīng)網(wǎng)絡(luò)語言模型（NeuralNetworkLanguageModel,NNLM）是 Bengio[44]在出的，由于該模型復(fù)雜性較高，許多學者在其基礎(chǔ)上進行了修改與優(yōu)化v[20]所提出的詞向量模型（word2vec）就是其中最具有代表性的模型，word過對詞語的上下文關(guān)系進行建模，用一個較小維數(shù)的向量表征文本中的詞模型相比，詞向量模型不僅能夠解決向量的稀疏問題，還將語義引入到中，有助于文本詞匯特征的構(gòu)建。向量包含了 CBOW 以及 Skip-gram 兩種方式，兩種模型的主要區(qū)別在于匯的選擇，令文本集用 D 表示，文本集中的第 m 篇文檔用mDoc 來進行表mc 的詞匯構(gòu)成用（m1w ,m2w …mnw ）進行表示，其中mnw 代表文檔mDoc 。如下圖 2.3 所示，CBOW 模型是利用詞mnw 的臨近詞匯m wn c至m +wn操作，并對詞mnw 進行推導(dǎo)（其中 c 為給定詞匯mnw 的前后詞匯個數(shù)），而型是在已知詞mnw 的前提下，對該給定詞匯的臨近詞匯m wn c至m +c wn

模型結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks, CNN）深度學習的發(fā)展，各類神經(jīng)網(wǎng)絡(luò)得到了廣泛的應(yīng)用與發(fā)展，其中廣泛的模型為卷積神經(jīng)網(wǎng)絡(luò)模型，卷積神經(jīng)網(wǎng)絡(luò)通過卷積、池化征，由于 CNN 在圖像領(lǐng)域的廣泛成功，開始有學者將其引入至試。NN 模型是卷積神經(jīng)網(wǎng)絡(luò)在文本分類任務(wù)中應(yīng)用最為廣泛的一個模型由 Kim Y[26]于 2014 年所提出，模型如圖 2.4 所示，左側(cè)的特征表征形式，該模型通過將前文所述的文本詞匯特征表達矩陣輸入，通過多個卷積核在特征矩陣中的滑動，得到卷積后的輸入層操作輸出最具代表性的特征，并將這些具有代表性的特征進行全連接層與 softmax 層，完成對文本的分類任務(wù)，卷積神經(jīng)網(wǎng)絡(luò)類中文本特征構(gòu)建的復(fù)雜過程，可以有效的提取更多的文本內(nèi)容分類的準確率。

【參考文獻】：
期刊論文
[1]基于知識圖譜擴展的短文本分類方法[J]. 丁連紅,孫斌,張宏偉.  情報工程. 2018(05)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的文本分類[J]. 龔維印,王力.  通信技術(shù). 2018(10)
[3]基于改進CHI的新的短文本混合特征選擇方法[J]. 張強強,蘇變萍,李敏.  信息與電腦(理論版). 2018(16)
[4]基于詞向量特征擴展的中文短文本分類研究[J]. 雷朔,劉旭敏,徐維祥.  計算機應(yīng)用與軟件. 2018(08)
[5]融合CNN和LDA的短文本分類研究[J]. 張小川,余林峰,桑瑞婷,張宜浩.  軟件工程. 2018(06)
[6]基于k最近鄰和改進TF-IDF的文本分類框架[J]. 龔靜,黃欣陽.  計算機工程與設(shè)計. 2018(05)
[7]基于LDA特征擴展的短文本分類方法研究[J]. 胡朝舉,徐永峰.  軟件導(dǎo)刊. 2018(03)
[8]基于維基百科的多種類型文獻自動分類研究[J]. 李湘東,阮濤,劉康.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(10)
[9]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英.  計算機工程. 2018(07)
[10]基于CP-CNN的中文短文本分類研究[J]. 余本功,張連彬.  計算機應(yīng)用研究. 2018(04)

博士論文
[1]文本分類及其相關(guān)技術(shù)研究[D]. 尚文倩.北京交通大學 2007

碩士論文
[1]半監(jiān)督自訓(xùn)練方法的研究[D]. 黎雋男.重慶師范大學 2018
[2]基于協(xié)同訓(xùn)練的半監(jiān)督短文本分類方法研究[D]. 韓戰(zhàn)豪.西南大學 2017
[3]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學 2016
[4]基于領(lǐng)域知識庫的短文本分類研究[D]. 陳佳.東北師范大學 2012

本文編號：3586124

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3586124.html

上一篇：多通道在線檢測系統(tǒng)開發(fā)
下一篇：基于智慧課堂的高中數(shù)學教學設(shè)計與實踐研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

融合主題模型與詞向量的短文本分類方法研究