融合主題模型與詞向量的短文本分類方法研究
發(fā)布時間:2022-01-13 09:00
互聯(lián)網(wǎng)技術(shù)在近年來得到了飛速的發(fā)展,人們學習與生活的方式也不斷發(fā)生著變化,由互聯(lián)網(wǎng)產(chǎn)生的內(nèi)容信息數(shù)量呈現(xiàn)爆炸式的增長。為適應(yīng)移動端碎片化的使用場景,以網(wǎng)絡(luò)新聞、商品評論等形式出現(xiàn)的短文本內(nèi)容信息成為文本數(shù)據(jù)在互聯(lián)網(wǎng)內(nèi)容中的主要呈現(xiàn)形式。面對海量的短文本數(shù)據(jù),對短文本進行有效的分類不僅可以顯著的縮小數(shù)據(jù)規(guī)模,精確的理解文本信息的內(nèi)容,也對新聞推送、流量分發(fā)等領(lǐng)域有著重要的影響。由于短文本數(shù)據(jù)具有詞匯量少,信息單元不密集的特點,傳統(tǒng)的長文本分類方法難以直接取得良好的分類效果。針對此問題,本文提出了一種融合主題模型與詞向量模型的短文本分類方法,該方法使用改進后的TF-IDF模型與詞向量模型構(gòu)建類別關(guān)鍵詞集,并利用類別關(guān)鍵詞集對待擴展詞匯的類別辨識度進行判斷,最后通過詞向量余弦相似度的計算完成對短文本內(nèi)容上的擴充。使用LDA模型構(gòu)建類別主題分布集,完成對短文本詞匯表征在主題粒度下的擴展,由于將類別特征引入至短文本擴充中來,本文所提出的方法在一定程度上避免了傳統(tǒng)短文本內(nèi)容擴展方法中的無效擴充問題,提升了短文本擴充的有效性。在文本分類階段,本文改進了基于深度學習網(wǎng)絡(luò)TextCNN文本分類方法,對卷...
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
LDA模型圖
3)詞向量模型經(jīng)網(wǎng)絡(luò)語言模型(NeuralNetworkLanguageModel,NNLM)是 Bengio[44]在 出的,由于該模型復(fù)雜性較高,許多學者在其基礎(chǔ)上進行了修改與優(yōu)化v[20]所提出的詞向量模型(word2vec)就是其中最具有代表性的模型,word過對詞語的上下文關(guān)系進行建模,用一個較小維數(shù)的向量表征文本中的詞 模型相比,詞向量模型不僅能夠解決向量的稀疏問題,還將語義引入到中,有助于文本詞匯特征的構(gòu)建。向量包含了 CBOW 以及 Skip-gram 兩種方式,兩種模型的主要區(qū)別在于匯的選擇,令文本集用 D 表示,文本集中的第 m 篇文檔用mDoc 來進行表mc 的詞匯構(gòu)成用(m1w ,m2w …mnw )進行表示,其中mnw 代表文檔mDoc 。如下圖 2.3 所示,CBOW 模型是利用詞mnw 的臨近詞匯m wn c至m +wn操作,并對詞mnw 進行推導(dǎo)(其中 c 為給定詞匯mnw 的前后詞匯個數(shù)),而 型是在已知詞mnw 的前提下,對該給定詞匯的臨近詞匯m wn c至m +c wn
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)深度學習的發(fā)展,各類神經(jīng)網(wǎng)絡(luò)得到了廣泛的應(yīng)用與發(fā)展,其中廣泛的模型為卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)通過卷積、池化征,由于 CNN 在圖像領(lǐng)域的廣泛成功,開始有學者將其引入至試。NN 模型是卷積神經(jīng)網(wǎng)絡(luò)在文本分類任務(wù)中應(yīng)用最為廣泛的一個模型由 Kim Y[26]于 2014 年所提出,模型如圖 2.4 所示,左側(cè)的特征表征形式,該模型通過將前文所述的文本詞匯特征表達矩陣輸入,通過多個卷積核在特征矩陣中的滑動,得到卷積后的輸入層操作輸出最具代表性的特征,并將這些具有代表性的特征進行全連接層與 softmax 層,完成對文本的分類任務(wù),卷積神經(jīng)網(wǎng)絡(luò)類中文本特征構(gòu)建的復(fù)雜過程,可以有效的提取更多的文本內(nèi)容分類的準確率。
【參考文獻】:
期刊論文
[1]基于知識圖譜擴展的短文本分類方法[J]. 丁連紅,孫斌,張宏偉. 情報工程. 2018(05)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的文本分類[J]. 龔維印,王力. 通信技術(shù). 2018(10)
[3]基于改進CHI的新的短文本混合特征選擇方法[J]. 張強強,蘇變萍,李敏. 信息與電腦(理論版). 2018(16)
[4]基于詞向量特征擴展的中文短文本分類研究[J]. 雷朔,劉旭敏,徐維祥. 計算機應(yīng)用與軟件. 2018(08)
[5]融合CNN和LDA的短文本分類研究[J]. 張小川,余林峰,桑瑞婷,張宜浩. 軟件工程. 2018(06)
[6]基于k最近鄰和改進TF-IDF的文本分類框架[J]. 龔靜,黃欣陽. 計算機工程與設(shè)計. 2018(05)
[7]基于LDA特征擴展的短文本分類方法研究[J]. 胡朝舉,徐永峰. 軟件導(dǎo)刊. 2018(03)
[8]基于維基百科的多種類型文獻自動分類研究[J]. 李湘東,阮濤,劉康. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(10)
[9]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英. 計算機工程. 2018(07)
[10]基于CP-CNN的中文短文本分類研究[J]. 余本功,張連彬. 計算機應(yīng)用研究. 2018(04)
博士論文
[1]文本分類及其相關(guān)技術(shù)研究[D]. 尚文倩.北京交通大學 2007
碩士論文
[1]半監(jiān)督自訓(xùn)練方法的研究[D]. 黎雋男.重慶師范大學 2018
[2]基于協(xié)同訓(xùn)練的半監(jiān)督短文本分類方法研究[D]. 韓戰(zhàn)豪.西南大學 2017
[3]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學 2016
[4]基于領(lǐng)域知識庫的短文本分類研究[D]. 陳佳.東北師范大學 2012
本文編號:3586124
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
LDA模型圖
3)詞向量模型經(jīng)網(wǎng)絡(luò)語言模型(NeuralNetworkLanguageModel,NNLM)是 Bengio[44]在 出的,由于該模型復(fù)雜性較高,許多學者在其基礎(chǔ)上進行了修改與優(yōu)化v[20]所提出的詞向量模型(word2vec)就是其中最具有代表性的模型,word過對詞語的上下文關(guān)系進行建模,用一個較小維數(shù)的向量表征文本中的詞 模型相比,詞向量模型不僅能夠解決向量的稀疏問題,還將語義引入到中,有助于文本詞匯特征的構(gòu)建。向量包含了 CBOW 以及 Skip-gram 兩種方式,兩種模型的主要區(qū)別在于匯的選擇,令文本集用 D 表示,文本集中的第 m 篇文檔用mDoc 來進行表mc 的詞匯構(gòu)成用(m1w ,m2w …mnw )進行表示,其中mnw 代表文檔mDoc 。如下圖 2.3 所示,CBOW 模型是利用詞mnw 的臨近詞匯m wn c至m +wn操作,并對詞mnw 進行推導(dǎo)(其中 c 為給定詞匯mnw 的前后詞匯個數(shù)),而 型是在已知詞mnw 的前提下,對該給定詞匯的臨近詞匯m wn c至m +c wn
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)深度學習的發(fā)展,各類神經(jīng)網(wǎng)絡(luò)得到了廣泛的應(yīng)用與發(fā)展,其中廣泛的模型為卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)通過卷積、池化征,由于 CNN 在圖像領(lǐng)域的廣泛成功,開始有學者將其引入至試。NN 模型是卷積神經(jīng)網(wǎng)絡(luò)在文本分類任務(wù)中應(yīng)用最為廣泛的一個模型由 Kim Y[26]于 2014 年所提出,模型如圖 2.4 所示,左側(cè)的特征表征形式,該模型通過將前文所述的文本詞匯特征表達矩陣輸入,通過多個卷積核在特征矩陣中的滑動,得到卷積后的輸入層操作輸出最具代表性的特征,并將這些具有代表性的特征進行全連接層與 softmax 層,完成對文本的分類任務(wù),卷積神經(jīng)網(wǎng)絡(luò)類中文本特征構(gòu)建的復(fù)雜過程,可以有效的提取更多的文本內(nèi)容分類的準確率。
【參考文獻】:
期刊論文
[1]基于知識圖譜擴展的短文本分類方法[J]. 丁連紅,孫斌,張宏偉. 情報工程. 2018(05)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的文本分類[J]. 龔維印,王力. 通信技術(shù). 2018(10)
[3]基于改進CHI的新的短文本混合特征選擇方法[J]. 張強強,蘇變萍,李敏. 信息與電腦(理論版). 2018(16)
[4]基于詞向量特征擴展的中文短文本分類研究[J]. 雷朔,劉旭敏,徐維祥. 計算機應(yīng)用與軟件. 2018(08)
[5]融合CNN和LDA的短文本分類研究[J]. 張小川,余林峰,桑瑞婷,張宜浩. 軟件工程. 2018(06)
[6]基于k最近鄰和改進TF-IDF的文本分類框架[J]. 龔靜,黃欣陽. 計算機工程與設(shè)計. 2018(05)
[7]基于LDA特征擴展的短文本分類方法研究[J]. 胡朝舉,徐永峰. 軟件導(dǎo)刊. 2018(03)
[8]基于維基百科的多種類型文獻自動分類研究[J]. 李湘東,阮濤,劉康. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(10)
[9]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英. 計算機工程. 2018(07)
[10]基于CP-CNN的中文短文本分類研究[J]. 余本功,張連彬. 計算機應(yīng)用研究. 2018(04)
博士論文
[1]文本分類及其相關(guān)技術(shù)研究[D]. 尚文倩.北京交通大學 2007
碩士論文
[1]半監(jiān)督自訓(xùn)練方法的研究[D]. 黎雋男.重慶師范大學 2018
[2]基于協(xié)同訓(xùn)練的半監(jiān)督短文本分類方法研究[D]. 韓戰(zhàn)豪.西南大學 2017
[3]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學 2016
[4]基于領(lǐng)域知識庫的短文本分類研究[D]. 陳佳.東北師范大學 2012
本文編號:3586124
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3586124.html
最近更新
教材專著