基于非平衡數(shù)據(jù)的多目標敏感文本檢測
發(fā)布時間:2021-08-17 19:52
隨著人工智智能滲入人類自然語言的程度越來越深,NLP(Natural Language Processing)技術在人類日常語言處理中諸如文本分類、語種翻譯、詞性標注以及命名實體識別等領域中扮演著越來越重要的角色,并取得了令人矚目的成績。在大數(shù)據(jù)時代中,人類日常所接觸的語言數(shù)據(jù)集是一堆雜亂的,非均衡的多目標學習任務文本數(shù)據(jù)集,與學術研究中所使用的標準干凈的、類別數(shù)量均衡的以及單一標簽的文本數(shù)據(jù)集不同,本文所研究的敏感文本檢測實際上就是一類涉及數(shù)據(jù)非均衡和多目標學習的文本分類任務,而已有的關于處理此類任務的方法中沒有一個統(tǒng)一的高效的方法,所以如何在多目標非均衡數(shù)據(jù)集上訓練出準確率高的、魯棒性好的模型是至關重要的。本論文目的就是研究在涉及數(shù)據(jù)非均衡和多目標學習特性的文本數(shù)據(jù)集中將敏感文本數(shù)據(jù)檢測(分類)出來,主要的研究工作由四部分組成。(1)對字符型數(shù)據(jù)進行量化操作,將字符型數(shù)據(jù)轉換成實數(shù)型數(shù)據(jù)。引入詞向量的概念,不同于已有的訓練詞向量模型——Skip-Gram模型和CBOW模型,因為這些詞向量訓練模型并沒有考慮詞序信息,導致所訓練出的詞向量中損失了一部原始數(shù)據(jù)的語義信息,我們需要設計出一...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:97 頁
【學位級別】:碩士
【部分圖文】:
文本量化示意圖
圖 2-6 sigmoid 函數(shù)分布圖oid 激活函數(shù)簡單易懂,可以輸出分類的概率,其在求導的過身代替,形如公式 2-15 所示! ( ) = ( ) = ( ) ( ) Sigmoid 激活函數(shù)容易發(fā)生飽和而使得梯度彌散,由式 2-的導數(shù)最大值為 1/4,那么在最理想的情況下,梯度在傳播過為原來的 1/4,那么隨著層數(shù)的加深,梯度會趨近于 0,造成情況;Singmoid 激活函數(shù)的輸出不是 0 均值地,這樣會導致候,在梯度進行反向傳播的時候,梯度也將是全正或全負的,新的時候回形成 Z 字型進行下降,那么會導致模型整個的收斂TanhActive Function 激活函數(shù)[25]是 Sigmoid 函數(shù)的一種變體,其非線性數(shù)學公式如
圖 2-7 tanh 函數(shù)分布圖活函數(shù)是對 Sigmoid 激活函數(shù)的改進,解決了函數(shù)輸出不任然存在梯度彌散的問題。eLU Active Function激活函數(shù)[26]針對于 Sigmoid 函數(shù)以及 Tanh 函數(shù)存在的問學公式如公式 2-17 所示: ( ) = ( ) 函數(shù)在輸入為非正的情況下輸出全為 0,而在輸入為正的入,其函數(shù)形狀如圖 2-8 所示。相較于 Sigmoid 函數(shù)和在基于 SGD(隨機梯度下降)算法的時候,模型收斂速 函數(shù)在求導的時候不含有任何指數(shù)運算,其導數(shù)就是一個算量。
本文編號:3348388
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:97 頁
【學位級別】:碩士
【部分圖文】:
文本量化示意圖
圖 2-6 sigmoid 函數(shù)分布圖oid 激活函數(shù)簡單易懂,可以輸出分類的概率,其在求導的過身代替,形如公式 2-15 所示! ( ) = ( ) = ( ) ( ) Sigmoid 激活函數(shù)容易發(fā)生飽和而使得梯度彌散,由式 2-的導數(shù)最大值為 1/4,那么在最理想的情況下,梯度在傳播過為原來的 1/4,那么隨著層數(shù)的加深,梯度會趨近于 0,造成情況;Singmoid 激活函數(shù)的輸出不是 0 均值地,這樣會導致候,在梯度進行反向傳播的時候,梯度也將是全正或全負的,新的時候回形成 Z 字型進行下降,那么會導致模型整個的收斂TanhActive Function 激活函數(shù)[25]是 Sigmoid 函數(shù)的一種變體,其非線性數(shù)學公式如
圖 2-7 tanh 函數(shù)分布圖活函數(shù)是對 Sigmoid 激活函數(shù)的改進,解決了函數(shù)輸出不任然存在梯度彌散的問題。eLU Active Function激活函數(shù)[26]針對于 Sigmoid 函數(shù)以及 Tanh 函數(shù)存在的問學公式如公式 2-17 所示: ( ) = ( ) 函數(shù)在輸入為非正的情況下輸出全為 0,而在輸入為正的入,其函數(shù)形狀如圖 2-8 所示。相較于 Sigmoid 函數(shù)和在基于 SGD(隨機梯度下降)算法的時候,模型收斂速 函數(shù)在求導的時候不含有任何指數(shù)運算,其導數(shù)就是一個算量。
本文編號:3348388
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3348388.html
最近更新
教材專著