天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

新聞文本分類系統(tǒng)的深度學習對比實驗研究與系統(tǒng)實現(xiàn)

發(fā)布時間:2021-01-29 19:35
  隨著信息時代的來臨,大數(shù)據(jù)時代的急速發(fā)展,文字信息越來越豐富,冗余信息也隨之增多,如何獲取有價值的信息,提高獲得信息的效率,是非常重要的問題,因此對這些文本進行分類就變得不可或缺了起來,其中文本分類包括情感分析,標簽分類等,新聞文本分類也是很重要的一環(huán)。近年來,國內外學者先后研究了RNN、CNN、Transformer框架下的自然語言處理任務,發(fā)現(xiàn)了RNN并行能力差,嚴重依賴序列順序,而CNN針對長文本分類又特別依賴疊加的卷積層,而過深的卷積層會導致深層網(wǎng)絡參數(shù)優(yōu)化不足這個問題。而Transformer內部構件多,以self-attention機制作為文本內容的特征抽取器,對比于CNN和RNN來說是不同的。本文基于以上背景,針對新聞文本數(shù)據(jù)集,主要進行了以下工作:比較了三者框架下的差距,對新聞文本的數(shù)據(jù)集以召回率、精確率、F1值作為評價指標,研究了流行的六種框架,通過新聞文本數(shù)據(jù)集的對比實驗,得到了它們之間的優(yōu)劣,首先FastText、TextCNN和DPCNN的對比,并對其中的DPCNN做出了改進,得到了km-DPCNN模型,F1值在92.3%,可以解決卷積進一步加深的問題,這個F1... 

【文章來源】: 唐習哲 北方民族大學

【文章頁數(shù)】:74 頁

【學位級別】:碩士

【部分圖文】:

新聞文本分類系統(tǒng)的深度學習對比實驗研究與系統(tǒng)實現(xiàn)


n-gram示意圖

模型圖,模型,向量,架構


北方民族大學2020屆碩士學位論文第二章相關理論與技術-9-圖2.2n-gram示意圖FastText是一種快速文本分類算法,在2016年由faceboook公司的ArmandJ等人提出[27],即使FastText屬于淺層網(wǎng)絡,F(xiàn)astText與其他的基于神經(jīng)網(wǎng)絡的分類算法相比有著很明顯的兩個有點,一是FastText可以保持高精度的情況下加快了訓練速度與測試速度,二是FastText不需要預訓練好的詞向量,F(xiàn)astText會自己訓練詞向量。FastText模型架構和word2vec中的CBOW很相似,不同之處是FastText預測標簽而CBOW預測的是中間詞,即模型架構類似但是模型的任務不同。FastText模型架構:其中NN,,...,,xxxx121表示一個文本中的n-gram向量,每個特征是詞向量的平均值。這和前文中提到的CBOW相似,CBOW用上下文去預測中心詞,而此處用全部的n-gram去預測指定類別,如圖2.3所示圖2.3FastText模型根據(jù)FastText的模型結構,在輸入NN,,...,,xxxx121后,隱藏層的輸出是樣本類別,并且通過Softmax函數(shù)就可以計算這個概率分布。輸出值的每一個Softmax的計算公式如下2.6:

模型圖,葉子,結點,向量


北方民族大學2020屆碩士學位論文第二章相關理論與技術-10-jjiieeSoftmax(2.6)在標準的Softmax中,計算一個類別的Softmax概率時,我們需要對所有類別概率做歸一化,在這類別很大情況下非常耗時,因此提出了分層Softmax(HierarchicalSoftmax),思想是根據(jù)類別的頻率構造霍夫曼樹來代替標準Softmax,通過分層Softmax可以將復雜度從N降低到logN,下圖2.4中給出分層Softmax示例:圖2.4分層softmax在層次softmax模型中,葉子結點的詞沒有直接輸出的向量,而非葉子節(jié)點都有響應的輸在在模型的訓練過程中,通過Huffman編碼,構造了一顆龐大的Huffman樹,同時會給非葉子結點賦予向量。我們要計算的是目標詞w的概率,這個概率的具體含義,是指從root結點開始隨機走,走到目標詞w的概率。因此在途中路過非葉子結點(包括root)時,需要分別知道往左走和往右走的概率。例如到達非葉子節(jié)點n的時候往左邊走和往右邊走的概率分別是:hleftnp)(),(Tn(2.7)hhrightnp)()(1),(TnTn(2.8)以上圖2.4中目標詞為2w為例,)),3,(()),2,(()),1,(()(2222rightwnpleftwnpleftwnpwp))()()()3,()2,()1,(222hhhTwnTwnTwn(2.9)到這里可以看出目標詞為w的概率可以表示為:

【參考文獻】:
期刊論文
[1]pandas大數(shù)據(jù)技術在央行監(jiān)管中的應用[J]. 聶杲.  金融科技時代. 2020(01)
[2]深度學習研究綜述[J]. 尹寶才,王文通,王立春.  北京工業(yè)大學學報. 2015(01)
[3]文本分類及算法綜述[J]. 張征杰,王自強.  電腦知識與技術. 2012(04)
[4]基于SVM的分類方法綜述[J]. 張小艷,李強.  科技信息. 2008(28)
[5]基于Labeled-LDA模型的文本分類新算法[J]. 李文波,孫樂,張大鯤.  計算機學報. 2008(04)
[6]文本分類綜述[J]. 靳小波.  自動化博覽. 2006(S1)
[7]使用KNN算法的文本分類[J]. 張寧,賈自艷,史忠植.  計算機工程. 2005(08)
[8]基于密度的kNN文本分類器訓練樣本裁剪方法[J]. 李榮陸,胡運發(fā).  計算機研究與發(fā)展. 2004(04)
[9]一種文本處理中的樸素貝葉斯分類器[J]. 李靜梅,孫麗華,張巧榮,張春生.  哈爾濱工程大學學報. 2003(01)

碩士論文
[1]情感文本的識別與分類算法的研究與實現(xiàn)[D]. 劉丹.北京交通大學 2019
[2]基于條件隨機場的中文分詞研究[D]. 姜鋒.大連理工大學 2006



本文編號:3007481

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3007481.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶777b2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com