基于深度學習的中文文本多標簽分類研究
發(fā)布時間:2021-08-24 22:35
隨著互聯(lián)網(wǎng)和計算機技術的快速發(fā)展與推廣,網(wǎng)絡中的文本信息呈現(xiàn)出爆炸性的增長趨勢,信息過載現(xiàn)象嚴重。為了對文本信息內(nèi)容進行高效的管理,實現(xiàn)準確地文本信息定位、文本信息過濾和文本數(shù)據(jù)的即時處理都離不開文本分類技術的快速發(fā)展;谏疃葘W習的多標簽文本分類方法實現(xiàn)了文本內(nèi)容標簽的自動化處理,可以有效地利用和管理文本信息。本文針對多標簽文本分類任務進行研究,獲取帶標簽的文本數(shù)據(jù)為后續(xù)多標簽文本分類研究提供實驗數(shù)據(jù)支持。數(shù)據(jù)來源于悟空問答網(wǎng)站和百度知道網(wǎng)站。由于網(wǎng)站上的數(shù)據(jù)是用戶根據(jù)自己的需求進行提問和標簽標注,因此數(shù)據(jù)具有多樣性、噪聲大等特點。為確保通過網(wǎng)絡爬蟲技術獲取的多標簽文本數(shù)據(jù)的可用性,首先對數(shù)據(jù)進行清洗,包括敏感詞過濾、長度比過濾、零寬字符過濾、無意義文本過濾和語義完整性判斷;而后采用Niutrans分詞工具對文本數(shù)據(jù)進行分詞處理;最后通過word2vec工具對分詞后的數(shù)進行詞向量轉換,便于輸入模型進行訓練。TextRNN和Text CNN作為解決多標簽文本分類問題的主要模型架構,存在各自的優(yōu)點和局限性。由于Text RNN模型采用Bilstm結構,后一個時間步的輸出依賴于前一個時間步...
【文章來源】:遼寧科技大學遼寧省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
本文邏輯框架圖
遼寧科技大學碩士學位論文92.1.2深度學習文本分類過程在研究文本分類過程中,使用深度學習的方法對文本分類技術領域的研究涵蓋多個分支科目。機器學習和模式識別的過程結合也就是多標簽文本分類的過程。圖2.1為基于深度學習方法的多標簽文本分類的基本過程,從圖2.1中可知,深度學習模型在多標簽文本分類任務中,首先將帶標簽的文本數(shù)據(jù)進行預處理,而后將文本向量化表示。通過對文本特征降維,獲取對分類結果影響較大的特征,最后通過分類器分類輸出進行性能評價。訓練模型的分類性能由測試集對模型進行測試,將測試集中未知類別的文本數(shù)據(jù)經(jīng)過預處理得到文本表示后輸入到多標簽文本分類模型中,經(jīng)過分類器輸出文本數(shù)據(jù)所屬的標簽類別,將輸出結果與真實的結果進行對比衡量,對模型的準確性進行最終評估。圖2.1文本分類流程Fig.2.1Textclassificationprocess多標簽文本分類的流程由訓練和測試兩個部分組成,訓練階段與模型分類的整體性能相關,因此尤為重要。而測試階段是衡量模型準確率的標準。在訓練階段,主要由數(shù)據(jù)預處理、文本數(shù)據(jù)表示、數(shù)據(jù)特征及分類器的選擇、文本分類的準確率性能評價組成。具體處理過程如下所示:(1)數(shù)據(jù)預處理:是對文本數(shù)據(jù)進行細致的清洗和處理、數(shù)據(jù)清洗包括對不相干的內(nèi)容過濾,如:廣告信息、網(wǎng)站域名信息,敏感詞過濾、文本語義完整性過濾、零寬字符過濾等操作。經(jīng)過清洗后的數(shù)據(jù)進行分詞處理,在處理中文文本數(shù)據(jù)時,則需要根據(jù)語義進行分詞。分詞后的數(shù)據(jù)需要進行去除停用詞等一系列操作,保證數(shù)據(jù)的質量。數(shù)據(jù)經(jīng)過預處理操作之后,使得文本數(shù)據(jù)的質量有所
2.相關工作12圖2.2Skip-Gram模型結構圖2.3CBOW模型結構Fig.2.2Skip-GrammodelstructureFig.2.3CBOWmodelstructure關于Skip-gram和CBOW兩個模型,作者Mikolov為了提高訓練的效率,提出了兩種優(yōu)化方法:層次Softmax和負采樣。(1)層次Softmax:Bengio早在2005年時將層次Softmax[32]引入到神經(jīng)網(wǎng)絡語言模型中。它的基本思想是將復雜的歸一化概率分解為單個條件概率的乘積形式:)),(),...,(|)(()|(111contextvbvbvbpcontextvpmiii(2.3)層次Softmax策略是優(yōu)化神經(jīng)網(wǎng)絡模型的輸出層,輸出層利用哈夫曼樹計算概率值。所謂哈夫曼樹,實質就是二叉樹,將其結果作為輸出,詞頻越高的詞,距離根節(jié)點就越近。將每一層的條件概率轉為二分類問題,用二項Logistic回歸函數(shù)對模型進行擬合,將目標概率的計算復雜度從由V降低到了logV的量級。(2)負采樣:負采樣[33]是指在訓練神經(jīng)網(wǎng)絡過程中,模型接受每一個訓練樣本時,需要通過調整所有神經(jīng)單元權重參數(shù),使得神經(jīng)網(wǎng)絡模型預測的準確率更高。并且詞匯表的大小決定了神經(jīng)網(wǎng)絡模型會有非常大的權重參數(shù),所有的權重參數(shù)隨著數(shù)十億訓練樣本不斷調整,這個過程不僅耗時,而且影響模型分類的準確性。因此采用負采樣方法的原理,使得單個訓練文本數(shù)據(jù)只優(yōu)化部分的權重參數(shù),從而降低梯度下降過程中的計算量。負采樣的最終目的就是用來加快模型的訓練速度并且使得詞向量得到更完整的表示,隨機負采樣能大幅度提高模型性能和計算效率。
【參考文獻】:
期刊論文
[1]基于Dopout與ADAM優(yōu)化器的改進CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學學報(自然科學版). 2018(07)
[2]基于深度學習的文本分類研究進展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術. 2018(03)
[3]基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[4]《反不正當競爭法》一般條款在互聯(lián)網(wǎng)領域的適用[J]. 蔣舸. 電子知識產(chǎn)權. 2014(10)
[5]論爬蟲協(xié)議的法律性質[J]. 楊華權,曲三強. 法律適用. 2013(04)
[6]基于HTMLParser和HttpClient的網(wǎng)絡爬蟲原理與實現(xiàn)[J]. 張亮. 電腦編程技巧與維護. 2011(20)
[7]網(wǎng)絡爬蟲的優(yōu)化策略探略[J]. 李志義. 現(xiàn)代情報. 2011(10)
[8]高性能網(wǎng)絡爬蟲:研究綜述[J]. 周德懋,李舟軍. 計算機科學. 2009(08)
[9]幾種文本特征降維方法的比較分析[J]. 高茂庭,王正歐. 計算機工程與應用. 2006(30)
[10]基于機器學習的文本分類技術研究進展[J]. 蘇金樹,張博鋒,徐昕. 軟件學報. 2006(09)
博士論文
[1]漢語文本自動分類[D]. 郝立柱.吉林大學 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡模型的文本分類[D]. 龔千健.華中科技大學 2016
[2]EM算法及其應用[D]. 張宏東.山東大學 2014
[3]論Robots協(xié)議下搜索引擎數(shù)據(jù)挖掘行為的法律責任[D]. 陳笑.北京郵電大學 2014
本文編號:3360845
【文章來源】:遼寧科技大學遼寧省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
本文邏輯框架圖
遼寧科技大學碩士學位論文92.1.2深度學習文本分類過程在研究文本分類過程中,使用深度學習的方法對文本分類技術領域的研究涵蓋多個分支科目。機器學習和模式識別的過程結合也就是多標簽文本分類的過程。圖2.1為基于深度學習方法的多標簽文本分類的基本過程,從圖2.1中可知,深度學習模型在多標簽文本分類任務中,首先將帶標簽的文本數(shù)據(jù)進行預處理,而后將文本向量化表示。通過對文本特征降維,獲取對分類結果影響較大的特征,最后通過分類器分類輸出進行性能評價。訓練模型的分類性能由測試集對模型進行測試,將測試集中未知類別的文本數(shù)據(jù)經(jīng)過預處理得到文本表示后輸入到多標簽文本分類模型中,經(jīng)過分類器輸出文本數(shù)據(jù)所屬的標簽類別,將輸出結果與真實的結果進行對比衡量,對模型的準確性進行最終評估。圖2.1文本分類流程Fig.2.1Textclassificationprocess多標簽文本分類的流程由訓練和測試兩個部分組成,訓練階段與模型分類的整體性能相關,因此尤為重要。而測試階段是衡量模型準確率的標準。在訓練階段,主要由數(shù)據(jù)預處理、文本數(shù)據(jù)表示、數(shù)據(jù)特征及分類器的選擇、文本分類的準確率性能評價組成。具體處理過程如下所示:(1)數(shù)據(jù)預處理:是對文本數(shù)據(jù)進行細致的清洗和處理、數(shù)據(jù)清洗包括對不相干的內(nèi)容過濾,如:廣告信息、網(wǎng)站域名信息,敏感詞過濾、文本語義完整性過濾、零寬字符過濾等操作。經(jīng)過清洗后的數(shù)據(jù)進行分詞處理,在處理中文文本數(shù)據(jù)時,則需要根據(jù)語義進行分詞。分詞后的數(shù)據(jù)需要進行去除停用詞等一系列操作,保證數(shù)據(jù)的質量。數(shù)據(jù)經(jīng)過預處理操作之后,使得文本數(shù)據(jù)的質量有所
2.相關工作12圖2.2Skip-Gram模型結構圖2.3CBOW模型結構Fig.2.2Skip-GrammodelstructureFig.2.3CBOWmodelstructure關于Skip-gram和CBOW兩個模型,作者Mikolov為了提高訓練的效率,提出了兩種優(yōu)化方法:層次Softmax和負采樣。(1)層次Softmax:Bengio早在2005年時將層次Softmax[32]引入到神經(jīng)網(wǎng)絡語言模型中。它的基本思想是將復雜的歸一化概率分解為單個條件概率的乘積形式:)),(),...,(|)(()|(111contextvbvbvbpcontextvpmiii(2.3)層次Softmax策略是優(yōu)化神經(jīng)網(wǎng)絡模型的輸出層,輸出層利用哈夫曼樹計算概率值。所謂哈夫曼樹,實質就是二叉樹,將其結果作為輸出,詞頻越高的詞,距離根節(jié)點就越近。將每一層的條件概率轉為二分類問題,用二項Logistic回歸函數(shù)對模型進行擬合,將目標概率的計算復雜度從由V降低到了logV的量級。(2)負采樣:負采樣[33]是指在訓練神經(jīng)網(wǎng)絡過程中,模型接受每一個訓練樣本時,需要通過調整所有神經(jīng)單元權重參數(shù),使得神經(jīng)網(wǎng)絡模型預測的準確率更高。并且詞匯表的大小決定了神經(jīng)網(wǎng)絡模型會有非常大的權重參數(shù),所有的權重參數(shù)隨著數(shù)十億訓練樣本不斷調整,這個過程不僅耗時,而且影響模型分類的準確性。因此采用負采樣方法的原理,使得單個訓練文本數(shù)據(jù)只優(yōu)化部分的權重參數(shù),從而降低梯度下降過程中的計算量。負采樣的最終目的就是用來加快模型的訓練速度并且使得詞向量得到更完整的表示,隨機負采樣能大幅度提高模型性能和計算效率。
【參考文獻】:
期刊論文
[1]基于Dopout與ADAM優(yōu)化器的改進CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學學報(自然科學版). 2018(07)
[2]基于深度學習的文本分類研究進展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術. 2018(03)
[3]基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[4]《反不正當競爭法》一般條款在互聯(lián)網(wǎng)領域的適用[J]. 蔣舸. 電子知識產(chǎn)權. 2014(10)
[5]論爬蟲協(xié)議的法律性質[J]. 楊華權,曲三強. 法律適用. 2013(04)
[6]基于HTMLParser和HttpClient的網(wǎng)絡爬蟲原理與實現(xiàn)[J]. 張亮. 電腦編程技巧與維護. 2011(20)
[7]網(wǎng)絡爬蟲的優(yōu)化策略探略[J]. 李志義. 現(xiàn)代情報. 2011(10)
[8]高性能網(wǎng)絡爬蟲:研究綜述[J]. 周德懋,李舟軍. 計算機科學. 2009(08)
[9]幾種文本特征降維方法的比較分析[J]. 高茂庭,王正歐. 計算機工程與應用. 2006(30)
[10]基于機器學習的文本分類技術研究進展[J]. 蘇金樹,張博鋒,徐昕. 軟件學報. 2006(09)
博士論文
[1]漢語文本自動分類[D]. 郝立柱.吉林大學 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡模型的文本分類[D]. 龔千健.華中科技大學 2016
[2]EM算法及其應用[D]. 張宏東.山東大學 2014
[3]論Robots協(xié)議下搜索引擎數(shù)據(jù)挖掘行為的法律責任[D]. 陳笑.北京郵電大學 2014
本文編號:3360845
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3360845.html
最近更新
教材專著