融合主題模型與詞向量的短文本分類方法研究
發(fā)布時(shí)間:2022-01-13 09:00
互聯(lián)網(wǎng)技術(shù)在近年來得到了飛速的發(fā)展,人們學(xué)習(xí)與生活的方式也不斷發(fā)生著變化,由互聯(lián)網(wǎng)產(chǎn)生的內(nèi)容信息數(shù)量呈現(xiàn)爆炸式的增長。為適應(yīng)移動(dòng)端碎片化的使用場景,以網(wǎng)絡(luò)新聞、商品評(píng)論等形式出現(xiàn)的短文本內(nèi)容信息成為文本數(shù)據(jù)在互聯(lián)網(wǎng)內(nèi)容中的主要呈現(xiàn)形式。面對(duì)海量的短文本數(shù)據(jù),對(duì)短文本進(jìn)行有效的分類不僅可以顯著的縮小數(shù)據(jù)規(guī)模,精確的理解文本信息的內(nèi)容,也對(duì)新聞推送、流量分發(fā)等領(lǐng)域有著重要的影響。由于短文本數(shù)據(jù)具有詞匯量少,信息單元不密集的特點(diǎn),傳統(tǒng)的長文本分類方法難以直接取得良好的分類效果。針對(duì)此問題,本文提出了一種融合主題模型與詞向量模型的短文本分類方法,該方法使用改進(jìn)后的TF-IDF模型與詞向量模型構(gòu)建類別關(guān)鍵詞集,并利用類別關(guān)鍵詞集對(duì)待擴(kuò)展詞匯的類別辨識(shí)度進(jìn)行判斷,最后通過詞向量余弦相似度的計(jì)算完成對(duì)短文本內(nèi)容上的擴(kuò)充。使用LDA模型構(gòu)建類別主題分布集,完成對(duì)短文本詞匯表征在主題粒度下的擴(kuò)展,由于將類別特征引入至短文本擴(kuò)充中來,本文所提出的方法在一定程度上避免了傳統(tǒng)短文本內(nèi)容擴(kuò)展方法中的無效擴(kuò)充問題,提升了短文本擴(kuò)充的有效性。在文本分類階段,本文改進(jìn)了基于深度學(xué)習(xí)網(wǎng)絡(luò)TextCNN文本分類方法,對(duì)卷...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:82 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LDA模型圖
3)詞向量模型經(jīng)網(wǎng)絡(luò)語言模型(NeuralNetworkLanguageModel,NNLM)是 Bengio[44]在 出的,由于該模型復(fù)雜性較高,許多學(xué)者在其基礎(chǔ)上進(jìn)行了修改與優(yōu)化v[20]所提出的詞向量模型(word2vec)就是其中最具有代表性的模型,word過對(duì)詞語的上下文關(guān)系進(jìn)行建模,用一個(gè)較小維數(shù)的向量表征文本中的詞 模型相比,詞向量模型不僅能夠解決向量的稀疏問題,還將語義引入到中,有助于文本詞匯特征的構(gòu)建。向量包含了 CBOW 以及 Skip-gram 兩種方式,兩種模型的主要區(qū)別在于匯的選擇,令文本集用 D 表示,文本集中的第 m 篇文檔用mDoc 來進(jìn)行表mc 的詞匯構(gòu)成用(m1w ,m2w …mnw )進(jìn)行表示,其中mnw 代表文檔mDoc 。如下圖 2.3 所示,CBOW 模型是利用詞mnw 的臨近詞匯m wn c至m +wn操作,并對(duì)詞mnw 進(jìn)行推導(dǎo)(其中 c 為給定詞匯mnw 的前后詞匯個(gè)數(shù)),而 型是在已知詞mnw 的前提下,對(duì)該給定詞匯的臨近詞匯m wn c至m +c wn
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)深度學(xué)習(xí)的發(fā)展,各類神經(jīng)網(wǎng)絡(luò)得到了廣泛的應(yīng)用與發(fā)展,其中廣泛的模型為卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)通過卷積、池化征,由于 CNN 在圖像領(lǐng)域的廣泛成功,開始有學(xué)者將其引入至試。NN 模型是卷積神經(jīng)網(wǎng)絡(luò)在文本分類任務(wù)中應(yīng)用最為廣泛的一個(gè)模型由 Kim Y[26]于 2014 年所提出,模型如圖 2.4 所示,左側(cè)的特征表征形式,該模型通過將前文所述的文本詞匯特征表達(dá)矩陣輸入,通過多個(gè)卷積核在特征矩陣中的滑動(dòng),得到卷積后的輸入層操作輸出最具代表性的特征,并將這些具有代表性的特征進(jìn)行全連接層與 softmax 層,完成對(duì)文本的分類任務(wù),卷積神經(jīng)網(wǎng)絡(luò)類中文本特征構(gòu)建的復(fù)雜過程,可以有效的提取更多的文本內(nèi)容分類的準(zhǔn)確率。
【參考文獻(xiàn)】:
期刊論文
[1]基于知識(shí)圖譜擴(kuò)展的短文本分類方法[J]. 丁連紅,孫斌,張宏偉. 情報(bào)工程. 2018(05)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的文本分類[J]. 龔維印,王力. 通信技術(shù). 2018(10)
[3]基于改進(jìn)CHI的新的短文本混合特征選擇方法[J]. 張強(qiáng)強(qiáng),蘇變萍,李敏. 信息與電腦(理論版). 2018(16)
[4]基于詞向量特征擴(kuò)展的中文短文本分類研究[J]. 雷朔,劉旭敏,徐維祥. 計(jì)算機(jī)應(yīng)用與軟件. 2018(08)
[5]融合CNN和LDA的短文本分類研究[J]. 張小川,余林峰,桑瑞婷,張宜浩. 軟件工程. 2018(06)
[6]基于k最近鄰和改進(jìn)TF-IDF的文本分類框架[J]. 龔靜,黃欣陽. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(05)
[7]基于LDA特征擴(kuò)展的短文本分類方法研究[J]. 胡朝舉,徐永峰. 軟件導(dǎo)刊. 2018(03)
[8]基于維基百科的多種類型文獻(xiàn)自動(dòng)分類研究[J]. 李湘東,阮濤,劉康. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(10)
[9]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英. 計(jì)算機(jī)工程. 2018(07)
[10]基于CP-CNN的中文短文本分類研究[J]. 余本功,張連彬. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
博士論文
[1]文本分類及其相關(guān)技術(shù)研究[D]. 尚文倩.北京交通大學(xué) 2007
碩士論文
[1]半監(jiān)督自訓(xùn)練方法的研究[D]. 黎雋男.重慶師范大學(xué) 2018
[2]基于協(xié)同訓(xùn)練的半監(jiān)督短文本分類方法研究[D]. 韓戰(zhàn)豪.西南大學(xué) 2017
[3]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[4]基于領(lǐng)域知識(shí)庫的短文本分類研究[D]. 陳佳.東北師范大學(xué) 2012
本文編號(hào):3586124
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:82 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LDA模型圖
3)詞向量模型經(jīng)網(wǎng)絡(luò)語言模型(NeuralNetworkLanguageModel,NNLM)是 Bengio[44]在 出的,由于該模型復(fù)雜性較高,許多學(xué)者在其基礎(chǔ)上進(jìn)行了修改與優(yōu)化v[20]所提出的詞向量模型(word2vec)就是其中最具有代表性的模型,word過對(duì)詞語的上下文關(guān)系進(jìn)行建模,用一個(gè)較小維數(shù)的向量表征文本中的詞 模型相比,詞向量模型不僅能夠解決向量的稀疏問題,還將語義引入到中,有助于文本詞匯特征的構(gòu)建。向量包含了 CBOW 以及 Skip-gram 兩種方式,兩種模型的主要區(qū)別在于匯的選擇,令文本集用 D 表示,文本集中的第 m 篇文檔用mDoc 來進(jìn)行表mc 的詞匯構(gòu)成用(m1w ,m2w …mnw )進(jìn)行表示,其中mnw 代表文檔mDoc 。如下圖 2.3 所示,CBOW 模型是利用詞mnw 的臨近詞匯m wn c至m +wn操作,并對(duì)詞mnw 進(jìn)行推導(dǎo)(其中 c 為給定詞匯mnw 的前后詞匯個(gè)數(shù)),而 型是在已知詞mnw 的前提下,對(duì)該給定詞匯的臨近詞匯m wn c至m +c wn
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)深度學(xué)習(xí)的發(fā)展,各類神經(jīng)網(wǎng)絡(luò)得到了廣泛的應(yīng)用與發(fā)展,其中廣泛的模型為卷積神經(jīng)網(wǎng)絡(luò)模型,卷積神經(jīng)網(wǎng)絡(luò)通過卷積、池化征,由于 CNN 在圖像領(lǐng)域的廣泛成功,開始有學(xué)者將其引入至試。NN 模型是卷積神經(jīng)網(wǎng)絡(luò)在文本分類任務(wù)中應(yīng)用最為廣泛的一個(gè)模型由 Kim Y[26]于 2014 年所提出,模型如圖 2.4 所示,左側(cè)的特征表征形式,該模型通過將前文所述的文本詞匯特征表達(dá)矩陣輸入,通過多個(gè)卷積核在特征矩陣中的滑動(dòng),得到卷積后的輸入層操作輸出最具代表性的特征,并將這些具有代表性的特征進(jìn)行全連接層與 softmax 層,完成對(duì)文本的分類任務(wù),卷積神經(jīng)網(wǎng)絡(luò)類中文本特征構(gòu)建的復(fù)雜過程,可以有效的提取更多的文本內(nèi)容分類的準(zhǔn)確率。
【參考文獻(xiàn)】:
期刊論文
[1]基于知識(shí)圖譜擴(kuò)展的短文本分類方法[J]. 丁連紅,孫斌,張宏偉. 情報(bào)工程. 2018(05)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的文本分類[J]. 龔維印,王力. 通信技術(shù). 2018(10)
[3]基于改進(jìn)CHI的新的短文本混合特征選擇方法[J]. 張強(qiáng)強(qiáng),蘇變萍,李敏. 信息與電腦(理論版). 2018(16)
[4]基于詞向量特征擴(kuò)展的中文短文本分類研究[J]. 雷朔,劉旭敏,徐維祥. 計(jì)算機(jī)應(yīng)用與軟件. 2018(08)
[5]融合CNN和LDA的短文本分類研究[J]. 張小川,余林峰,桑瑞婷,張宜浩. 軟件工程. 2018(06)
[6]基于k最近鄰和改進(jìn)TF-IDF的文本分類框架[J]. 龔靜,黃欣陽. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(05)
[7]基于LDA特征擴(kuò)展的短文本分類方法研究[J]. 胡朝舉,徐永峰. 軟件導(dǎo)刊. 2018(03)
[8]基于維基百科的多種類型文獻(xiàn)自動(dòng)分類研究[J]. 李湘東,阮濤,劉康. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(10)
[9]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英. 計(jì)算機(jī)工程. 2018(07)
[10]基于CP-CNN的中文短文本分類研究[J]. 余本功,張連彬. 計(jì)算機(jī)應(yīng)用研究. 2018(04)
博士論文
[1]文本分類及其相關(guān)技術(shù)研究[D]. 尚文倩.北京交通大學(xué) 2007
碩士論文
[1]半監(jiān)督自訓(xùn)練方法的研究[D]. 黎雋男.重慶師范大學(xué) 2018
[2]基于協(xié)同訓(xùn)練的半監(jiān)督短文本分類方法研究[D]. 韓戰(zhàn)豪.西南大學(xué) 2017
[3]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[4]基于領(lǐng)域知識(shí)庫的短文本分類研究[D]. 陳佳.東北師范大學(xué) 2012
本文編號(hào):3586124
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3586124.html
最近更新
教材專著