新聞文本分類系統(tǒng)的深度學(xué)習(xí)對比實驗研究與系統(tǒng)實現(xiàn)
發(fā)布時間:2021-01-29 19:35
隨著信息時代的來臨,大數(shù)據(jù)時代的急速發(fā)展,文字信息越來越豐富,冗余信息也隨之增多,如何獲取有價值的信息,提高獲得信息的效率,是非常重要的問題,因此對這些文本進行分類就變得不可或缺了起來,其中文本分類包括情感分析,標簽分類等,新聞文本分類也是很重要的一環(huán)。近年來,國內(nèi)外學(xué)者先后研究了RNN、CNN、Transformer框架下的自然語言處理任務(wù),發(fā)現(xiàn)了RNN并行能力差,嚴重依賴序列順序,而CNN針對長文本分類又特別依賴疊加的卷積層,而過深的卷積層會導(dǎo)致深層網(wǎng)絡(luò)參數(shù)優(yōu)化不足這個問題。而Transformer內(nèi)部構(gòu)件多,以self-attention機制作為文本內(nèi)容的特征抽取器,對比于CNN和RNN來說是不同的。本文基于以上背景,針對新聞文本數(shù)據(jù)集,主要進行了以下工作:比較了三者框架下的差距,對新聞文本的數(shù)據(jù)集以召回率、精確率、F1值作為評價指標,研究了流行的六種框架,通過新聞文本數(shù)據(jù)集的對比實驗,得到了它們之間的優(yōu)劣,首先FastText、TextCNN和DPCNN的對比,并對其中的DPCNN做出了改進,得到了km-DPCNN模型,F1值在92.3%,可以解決卷積進一步加深的問題,這個F1...
【文章來源】: 唐習(xí)哲 北方民族大學(xué)
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
n-gram示意圖
北方民族大學(xué)2020屆碩士學(xué)位論文第二章相關(guān)理論與技術(shù)-9-圖2.2n-gram示意圖FastText是一種快速文本分類算法,在2016年由faceboook公司的ArmandJ等人提出[27],即使FastText屬于淺層網(wǎng)絡(luò),F(xiàn)astText與其他的基于神經(jīng)網(wǎng)絡(luò)的分類算法相比有著很明顯的兩個有點,一是FastText可以保持高精度的情況下加快了訓(xùn)練速度與測試速度,二是FastText不需要預(yù)訓(xùn)練好的詞向量,F(xiàn)astText會自己訓(xùn)練詞向量。FastText模型架構(gòu)和word2vec中的CBOW很相似,不同之處是FastText預(yù)測標簽而CBOW預(yù)測的是中間詞,即模型架構(gòu)類似但是模型的任務(wù)不同。FastText模型架構(gòu):其中NN,,...,,xxxx121表示一個文本中的n-gram向量,每個特征是詞向量的平均值。這和前文中提到的CBOW相似,CBOW用上下文去預(yù)測中心詞,而此處用全部的n-gram去預(yù)測指定類別,如圖2.3所示圖2.3FastText模型根據(jù)FastText的模型結(jié)構(gòu),在輸入NN,,...,,xxxx121后,隱藏層的輸出是樣本類別,并且通過Softmax函數(shù)就可以計算這個概率分布。輸出值的每一個Softmax的計算公式如下2.6:
北方民族大學(xué)2020屆碩士學(xué)位論文第二章相關(guān)理論與技術(shù)-10-jjiieeSoftmax(2.6)在標準的Softmax中,計算一個類別的Softmax概率時,我們需要對所有類別概率做歸一化,在這類別很大情況下非常耗時,因此提出了分層Softmax(HierarchicalSoftmax),思想是根據(jù)類別的頻率構(gòu)造霍夫曼樹來代替標準Softmax,通過分層Softmax可以將復(fù)雜度從N降低到logN,下圖2.4中給出分層Softmax示例:圖2.4分層softmax在層次softmax模型中,葉子結(jié)點的詞沒有直接輸出的向量,而非葉子節(jié)點都有響應(yīng)的輸在在模型的訓(xùn)練過程中,通過Huffman編碼,構(gòu)造了一顆龐大的Huffman樹,同時會給非葉子結(jié)點賦予向量。我們要計算的是目標詞w的概率,這個概率的具體含義,是指從root結(jié)點開始隨機走,走到目標詞w的概率。因此在途中路過非葉子結(jié)點(包括root)時,需要分別知道往左走和往右走的概率。例如到達非葉子節(jié)點n的時候往左邊走和往右邊走的概率分別是:hleftnp)(),(Tn(2.7)hhrightnp)()(1),(TnTn(2.8)以上圖2.4中目標詞為2w為例,)),3,(()),2,(()),1,(()(2222rightwnpleftwnpleftwnpwp))()()()3,()2,()1,(222hhhTwnTwnTwn(2.9)到這里可以看出目標詞為w的概率可以表示為:
【參考文獻】:
期刊論文
[1]pandas大數(shù)據(jù)技術(shù)在央行監(jiān)管中的應(yīng)用[J]. 聶杲. 金融科技時代. 2020(01)
[2]深度學(xué)習(xí)研究綜述[J]. 尹寶才,王文通,王立春. 北京工業(yè)大學(xué)學(xué)報. 2015(01)
[3]文本分類及算法綜述[J]. 張征杰,王自強. 電腦知識與技術(shù). 2012(04)
[4]基于SVM的分類方法綜述[J]. 張小艷,李強. 科技信息. 2008(28)
[5]基于Labeled-LDA模型的文本分類新算法[J]. 李文波,孫樂,張大鯤. 計算機學(xué)報. 2008(04)
[6]文本分類綜述[J]. 靳小波. 自動化博覽. 2006(S1)
[7]使用KNN算法的文本分類[J]. 張寧,賈自艷,史忠植. 計算機工程. 2005(08)
[8]基于密度的kNN文本分類器訓(xùn)練樣本裁剪方法[J]. 李榮陸,胡運發(fā). 計算機研究與發(fā)展. 2004(04)
[9]一種文本處理中的樸素貝葉斯分類器[J]. 李靜梅,孫麗華,張巧榮,張春生. 哈爾濱工程大學(xué)學(xué)報. 2003(01)
碩士論文
[1]情感文本的識別與分類算法的研究與實現(xiàn)[D]. 劉丹.北京交通大學(xué) 2019
[2]基于條件隨機場的中文分詞研究[D]. 姜鋒.大連理工大學(xué) 2006
本文編號:3007481
【文章來源】: 唐習(xí)哲 北方民族大學(xué)
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
n-gram示意圖
北方民族大學(xué)2020屆碩士學(xué)位論文第二章相關(guān)理論與技術(shù)-9-圖2.2n-gram示意圖FastText是一種快速文本分類算法,在2016年由faceboook公司的ArmandJ等人提出[27],即使FastText屬于淺層網(wǎng)絡(luò),F(xiàn)astText與其他的基于神經(jīng)網(wǎng)絡(luò)的分類算法相比有著很明顯的兩個有點,一是FastText可以保持高精度的情況下加快了訓(xùn)練速度與測試速度,二是FastText不需要預(yù)訓(xùn)練好的詞向量,F(xiàn)astText會自己訓(xùn)練詞向量。FastText模型架構(gòu)和word2vec中的CBOW很相似,不同之處是FastText預(yù)測標簽而CBOW預(yù)測的是中間詞,即模型架構(gòu)類似但是模型的任務(wù)不同。FastText模型架構(gòu):其中NN,,...,,xxxx121表示一個文本中的n-gram向量,每個特征是詞向量的平均值。這和前文中提到的CBOW相似,CBOW用上下文去預(yù)測中心詞,而此處用全部的n-gram去預(yù)測指定類別,如圖2.3所示圖2.3FastText模型根據(jù)FastText的模型結(jié)構(gòu),在輸入NN,,...,,xxxx121后,隱藏層的輸出是樣本類別,并且通過Softmax函數(shù)就可以計算這個概率分布。輸出值的每一個Softmax的計算公式如下2.6:
北方民族大學(xué)2020屆碩士學(xué)位論文第二章相關(guān)理論與技術(shù)-10-jjiieeSoftmax(2.6)在標準的Softmax中,計算一個類別的Softmax概率時,我們需要對所有類別概率做歸一化,在這類別很大情況下非常耗時,因此提出了分層Softmax(HierarchicalSoftmax),思想是根據(jù)類別的頻率構(gòu)造霍夫曼樹來代替標準Softmax,通過分層Softmax可以將復(fù)雜度從N降低到logN,下圖2.4中給出分層Softmax示例:圖2.4分層softmax在層次softmax模型中,葉子結(jié)點的詞沒有直接輸出的向量,而非葉子節(jié)點都有響應(yīng)的輸在在模型的訓(xùn)練過程中,通過Huffman編碼,構(gòu)造了一顆龐大的Huffman樹,同時會給非葉子結(jié)點賦予向量。我們要計算的是目標詞w的概率,這個概率的具體含義,是指從root結(jié)點開始隨機走,走到目標詞w的概率。因此在途中路過非葉子結(jié)點(包括root)時,需要分別知道往左走和往右走的概率。例如到達非葉子節(jié)點n的時候往左邊走和往右邊走的概率分別是:hleftnp)(),(Tn(2.7)hhrightnp)()(1),(TnTn(2.8)以上圖2.4中目標詞為2w為例,)),3,(()),2,(()),1,(()(2222rightwnpleftwnpleftwnpwp))()()()3,()2,()1,(222hhhTwnTwnTwn(2.9)到這里可以看出目標詞為w的概率可以表示為:
【參考文獻】:
期刊論文
[1]pandas大數(shù)據(jù)技術(shù)在央行監(jiān)管中的應(yīng)用[J]. 聶杲. 金融科技時代. 2020(01)
[2]深度學(xué)習(xí)研究綜述[J]. 尹寶才,王文通,王立春. 北京工業(yè)大學(xué)學(xué)報. 2015(01)
[3]文本分類及算法綜述[J]. 張征杰,王自強. 電腦知識與技術(shù). 2012(04)
[4]基于SVM的分類方法綜述[J]. 張小艷,李強. 科技信息. 2008(28)
[5]基于Labeled-LDA模型的文本分類新算法[J]. 李文波,孫樂,張大鯤. 計算機學(xué)報. 2008(04)
[6]文本分類綜述[J]. 靳小波. 自動化博覽. 2006(S1)
[7]使用KNN算法的文本分類[J]. 張寧,賈自艷,史忠植. 計算機工程. 2005(08)
[8]基于密度的kNN文本分類器訓(xùn)練樣本裁剪方法[J]. 李榮陸,胡運發(fā). 計算機研究與發(fā)展. 2004(04)
[9]一種文本處理中的樸素貝葉斯分類器[J]. 李靜梅,孫麗華,張巧榮,張春生. 哈爾濱工程大學(xué)學(xué)報. 2003(01)
碩士論文
[1]情感文本的識別與分類算法的研究與實現(xiàn)[D]. 劉丹.北京交通大學(xué) 2019
[2]基于條件隨機場的中文分詞研究[D]. 姜鋒.大連理工大學(xué) 2006
本文編號:3007481
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3007481.html
最近更新
教材專著