基于深度學(xué)習(xí)的中文文本多標(biāo)簽分類研究
發(fā)布時間:2021-08-24 22:35
隨著互聯(lián)網(wǎng)和計算機技術(shù)的快速發(fā)展與推廣,網(wǎng)絡(luò)中的文本信息呈現(xiàn)出爆炸性的增長趨勢,信息過載現(xiàn)象嚴(yán)重。為了對文本信息內(nèi)容進行高效的管理,實現(xiàn)準(zhǔn)確地文本信息定位、文本信息過濾和文本數(shù)據(jù)的即時處理都離不開文本分類技術(shù)的快速發(fā)展;谏疃葘W(xué)習(xí)的多標(biāo)簽文本分類方法實現(xiàn)了文本內(nèi)容標(biāo)簽的自動化處理,可以有效地利用和管理文本信息。本文針對多標(biāo)簽文本分類任務(wù)進行研究,獲取帶標(biāo)簽的文本數(shù)據(jù)為后續(xù)多標(biāo)簽文本分類研究提供實驗數(shù)據(jù)支持。數(shù)據(jù)來源于悟空問答網(wǎng)站和百度知道網(wǎng)站。由于網(wǎng)站上的數(shù)據(jù)是用戶根據(jù)自己的需求進行提問和標(biāo)簽標(biāo)注,因此數(shù)據(jù)具有多樣性、噪聲大等特點。為確保通過網(wǎng)絡(luò)爬蟲技術(shù)獲取的多標(biāo)簽文本數(shù)據(jù)的可用性,首先對數(shù)據(jù)進行清洗,包括敏感詞過濾、長度比過濾、零寬字符過濾、無意義文本過濾和語義完整性判斷;而后采用Niutrans分詞工具對文本數(shù)據(jù)進行分詞處理;最后通過word2vec工具對分詞后的數(shù)進行詞向量轉(zhuǎn)換,便于輸入模型進行訓(xùn)練。TextRNN和Text CNN作為解決多標(biāo)簽文本分類問題的主要模型架構(gòu),存在各自的優(yōu)點和局限性。由于Text RNN模型采用Bilstm結(jié)構(gòu),后一個時間步的輸出依賴于前一個時間步...
【文章來源】:遼寧科技大學(xué)遼寧省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文邏輯框架圖
遼寧科技大學(xué)碩士學(xué)位論文92.1.2深度學(xué)習(xí)文本分類過程在研究文本分類過程中,使用深度學(xué)習(xí)的方法對文本分類技術(shù)領(lǐng)域的研究涵蓋多個分支科目。機器學(xué)習(xí)和模式識別的過程結(jié)合也就是多標(biāo)簽文本分類的過程。圖2.1為基于深度學(xué)習(xí)方法的多標(biāo)簽文本分類的基本過程,從圖2.1中可知,深度學(xué)習(xí)模型在多標(biāo)簽文本分類任務(wù)中,首先將帶標(biāo)簽的文本數(shù)據(jù)進行預(yù)處理,而后將文本向量化表示。通過對文本特征降維,獲取對分類結(jié)果影響較大的特征,最后通過分類器分類輸出進行性能評價。訓(xùn)練模型的分類性能由測試集對模型進行測試,將測試集中未知類別的文本數(shù)據(jù)經(jīng)過預(yù)處理得到文本表示后輸入到多標(biāo)簽文本分類模型中,經(jīng)過分類器輸出文本數(shù)據(jù)所屬的標(biāo)簽類別,將輸出結(jié)果與真實的結(jié)果進行對比衡量,對模型的準(zhǔn)確性進行最終評估。圖2.1文本分類流程Fig.2.1Textclassificationprocess多標(biāo)簽文本分類的流程由訓(xùn)練和測試兩個部分組成,訓(xùn)練階段與模型分類的整體性能相關(guān),因此尤為重要。而測試階段是衡量模型準(zhǔn)確率的標(biāo)準(zhǔn)。在訓(xùn)練階段,主要由數(shù)據(jù)預(yù)處理、文本數(shù)據(jù)表示、數(shù)據(jù)特征及分類器的選擇、文本分類的準(zhǔn)確率性能評價組成。具體處理過程如下所示:(1)數(shù)據(jù)預(yù)處理:是對文本數(shù)據(jù)進行細(xì)致的清洗和處理、數(shù)據(jù)清洗包括對不相干的內(nèi)容過濾,如:廣告信息、網(wǎng)站域名信息,敏感詞過濾、文本語義完整性過濾、零寬字符過濾等操作。經(jīng)過清洗后的數(shù)據(jù)進行分詞處理,在處理中文文本數(shù)據(jù)時,則需要根據(jù)語義進行分詞。分詞后的數(shù)據(jù)需要進行去除停用詞等一系列操作,保證數(shù)據(jù)的質(zhì)量。數(shù)據(jù)經(jīng)過預(yù)處理操作之后,使得文本數(shù)據(jù)的質(zhì)量有所
2.相關(guān)工作12圖2.2Skip-Gram模型結(jié)構(gòu)圖2.3CBOW模型結(jié)構(gòu)Fig.2.2Skip-GrammodelstructureFig.2.3CBOWmodelstructure關(guān)于Skip-gram和CBOW兩個模型,作者Mikolov為了提高訓(xùn)練的效率,提出了兩種優(yōu)化方法:層次Softmax和負(fù)采樣。(1)層次Softmax:Bengio早在2005年時將層次Softmax[32]引入到神經(jīng)網(wǎng)絡(luò)語言模型中。它的基本思想是將復(fù)雜的歸一化概率分解為單個條件概率的乘積形式:)),(),...,(|)(()|(111contextvbvbvbpcontextvpmiii(2.3)層次Softmax策略是優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的輸出層,輸出層利用哈夫曼樹計算概率值。所謂哈夫曼樹,實質(zhì)就是二叉樹,將其結(jié)果作為輸出,詞頻越高的詞,距離根節(jié)點就越近。將每一層的條件概率轉(zhuǎn)為二分類問題,用二項Logistic回歸函數(shù)對模型進行擬合,將目標(biāo)概率的計算復(fù)雜度從由V降低到了logV的量級。(2)負(fù)采樣:負(fù)采樣[33]是指在訓(xùn)練神經(jīng)網(wǎng)絡(luò)過程中,模型接受每一個訓(xùn)練樣本時,需要通過調(diào)整所有神經(jīng)單元權(quán)重參數(shù),使得神經(jīng)網(wǎng)絡(luò)模型預(yù)測的準(zhǔn)確率更高。并且詞匯表的大小決定了神經(jīng)網(wǎng)絡(luò)模型會有非常大的權(quán)重參數(shù),所有的權(quán)重參數(shù)隨著數(shù)十億訓(xùn)練樣本不斷調(diào)整,這個過程不僅耗時,而且影響模型分類的準(zhǔn)確性。因此采用負(fù)采樣方法的原理,使得單個訓(xùn)練文本數(shù)據(jù)只優(yōu)化部分的權(quán)重參數(shù),從而降低梯度下降過程中的計算量。負(fù)采樣的最終目的就是用來加快模型的訓(xùn)練速度并且使得詞向量得到更完整的表示,隨機負(fù)采樣能大幅度提高模型性能和計算效率。
【參考文獻(xiàn)】:
期刊論文
[1]基于Dopout與ADAM優(yōu)化器的改進CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學(xué)學(xué)報(自然科學(xué)版). 2018(07)
[2]基于深度學(xué)習(xí)的文本分類研究進展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術(shù). 2018(03)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[4]《反不正當(dāng)競爭法》一般條款在互聯(lián)網(wǎng)領(lǐng)域的適用[J]. 蔣舸. 電子知識產(chǎn)權(quán). 2014(10)
[5]論爬蟲協(xié)議的法律性質(zhì)[J]. 楊華權(quán),曲三強. 法律適用. 2013(04)
[6]基于HTMLParser和HttpClient的網(wǎng)絡(luò)爬蟲原理與實現(xiàn)[J]. 張亮. 電腦編程技巧與維護. 2011(20)
[7]網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J]. 李志義. 現(xiàn)代情報. 2011(10)
[8]高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 周德懋,李舟軍. 計算機科學(xué). 2009(08)
[9]幾種文本特征降維方法的比較分析[J]. 高茂庭,王正歐. 計算機工程與應(yīng)用. 2006(30)
[10]基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J]. 蘇金樹,張博鋒,徐昕. 軟件學(xué)報. 2006(09)
博士論文
[1]漢語文本自動分類[D]. 郝立柱.吉林大學(xué) 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[2]EM算法及其應(yīng)用[D]. 張宏東.山東大學(xué) 2014
[3]論Robots協(xié)議下搜索引擎數(shù)據(jù)挖掘行為的法律責(zé)任[D]. 陳笑.北京郵電大學(xué) 2014
本文編號:3360845
【文章來源】:遼寧科技大學(xué)遼寧省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文邏輯框架圖
遼寧科技大學(xué)碩士學(xué)位論文92.1.2深度學(xué)習(xí)文本分類過程在研究文本分類過程中,使用深度學(xué)習(xí)的方法對文本分類技術(shù)領(lǐng)域的研究涵蓋多個分支科目。機器學(xué)習(xí)和模式識別的過程結(jié)合也就是多標(biāo)簽文本分類的過程。圖2.1為基于深度學(xué)習(xí)方法的多標(biāo)簽文本分類的基本過程,從圖2.1中可知,深度學(xué)習(xí)模型在多標(biāo)簽文本分類任務(wù)中,首先將帶標(biāo)簽的文本數(shù)據(jù)進行預(yù)處理,而后將文本向量化表示。通過對文本特征降維,獲取對分類結(jié)果影響較大的特征,最后通過分類器分類輸出進行性能評價。訓(xùn)練模型的分類性能由測試集對模型進行測試,將測試集中未知類別的文本數(shù)據(jù)經(jīng)過預(yù)處理得到文本表示后輸入到多標(biāo)簽文本分類模型中,經(jīng)過分類器輸出文本數(shù)據(jù)所屬的標(biāo)簽類別,將輸出結(jié)果與真實的結(jié)果進行對比衡量,對模型的準(zhǔn)確性進行最終評估。圖2.1文本分類流程Fig.2.1Textclassificationprocess多標(biāo)簽文本分類的流程由訓(xùn)練和測試兩個部分組成,訓(xùn)練階段與模型分類的整體性能相關(guān),因此尤為重要。而測試階段是衡量模型準(zhǔn)確率的標(biāo)準(zhǔn)。在訓(xùn)練階段,主要由數(shù)據(jù)預(yù)處理、文本數(shù)據(jù)表示、數(shù)據(jù)特征及分類器的選擇、文本分類的準(zhǔn)確率性能評價組成。具體處理過程如下所示:(1)數(shù)據(jù)預(yù)處理:是對文本數(shù)據(jù)進行細(xì)致的清洗和處理、數(shù)據(jù)清洗包括對不相干的內(nèi)容過濾,如:廣告信息、網(wǎng)站域名信息,敏感詞過濾、文本語義完整性過濾、零寬字符過濾等操作。經(jīng)過清洗后的數(shù)據(jù)進行分詞處理,在處理中文文本數(shù)據(jù)時,則需要根據(jù)語義進行分詞。分詞后的數(shù)據(jù)需要進行去除停用詞等一系列操作,保證數(shù)據(jù)的質(zhì)量。數(shù)據(jù)經(jīng)過預(yù)處理操作之后,使得文本數(shù)據(jù)的質(zhì)量有所
2.相關(guān)工作12圖2.2Skip-Gram模型結(jié)構(gòu)圖2.3CBOW模型結(jié)構(gòu)Fig.2.2Skip-GrammodelstructureFig.2.3CBOWmodelstructure關(guān)于Skip-gram和CBOW兩個模型,作者Mikolov為了提高訓(xùn)練的效率,提出了兩種優(yōu)化方法:層次Softmax和負(fù)采樣。(1)層次Softmax:Bengio早在2005年時將層次Softmax[32]引入到神經(jīng)網(wǎng)絡(luò)語言模型中。它的基本思想是將復(fù)雜的歸一化概率分解為單個條件概率的乘積形式:)),(),...,(|)(()|(111contextvbvbvbpcontextvpmiii(2.3)層次Softmax策略是優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的輸出層,輸出層利用哈夫曼樹計算概率值。所謂哈夫曼樹,實質(zhì)就是二叉樹,將其結(jié)果作為輸出,詞頻越高的詞,距離根節(jié)點就越近。將每一層的條件概率轉(zhuǎn)為二分類問題,用二項Logistic回歸函數(shù)對模型進行擬合,將目標(biāo)概率的計算復(fù)雜度從由V降低到了logV的量級。(2)負(fù)采樣:負(fù)采樣[33]是指在訓(xùn)練神經(jīng)網(wǎng)絡(luò)過程中,模型接受每一個訓(xùn)練樣本時,需要通過調(diào)整所有神經(jīng)單元權(quán)重參數(shù),使得神經(jīng)網(wǎng)絡(luò)模型預(yù)測的準(zhǔn)確率更高。并且詞匯表的大小決定了神經(jīng)網(wǎng)絡(luò)模型會有非常大的權(quán)重參數(shù),所有的權(quán)重參數(shù)隨著數(shù)十億訓(xùn)練樣本不斷調(diào)整,這個過程不僅耗時,而且影響模型分類的準(zhǔn)確性。因此采用負(fù)采樣方法的原理,使得單個訓(xùn)練文本數(shù)據(jù)只優(yōu)化部分的權(quán)重參數(shù),從而降低梯度下降過程中的計算量。負(fù)采樣的最終目的就是用來加快模型的訓(xùn)練速度并且使得詞向量得到更完整的表示,隨機負(fù)采樣能大幅度提高模型性能和計算效率。
【參考文獻(xiàn)】:
期刊論文
[1]基于Dopout與ADAM優(yōu)化器的改進CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學(xué)學(xué)報(自然科學(xué)版). 2018(07)
[2]基于深度學(xué)習(xí)的文本分類研究進展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術(shù). 2018(03)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計算機與現(xiàn)代化. 2017(04)
[4]《反不正當(dāng)競爭法》一般條款在互聯(lián)網(wǎng)領(lǐng)域的適用[J]. 蔣舸. 電子知識產(chǎn)權(quán). 2014(10)
[5]論爬蟲協(xié)議的法律性質(zhì)[J]. 楊華權(quán),曲三強. 法律適用. 2013(04)
[6]基于HTMLParser和HttpClient的網(wǎng)絡(luò)爬蟲原理與實現(xiàn)[J]. 張亮. 電腦編程技巧與維護. 2011(20)
[7]網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J]. 李志義. 現(xiàn)代情報. 2011(10)
[8]高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 周德懋,李舟軍. 計算機科學(xué). 2009(08)
[9]幾種文本特征降維方法的比較分析[J]. 高茂庭,王正歐. 計算機工程與應(yīng)用. 2006(30)
[10]基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J]. 蘇金樹,張博鋒,徐昕. 軟件學(xué)報. 2006(09)
博士論文
[1]漢語文本自動分類[D]. 郝立柱.吉林大學(xué) 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[2]EM算法及其應(yīng)用[D]. 張宏東.山東大學(xué) 2014
[3]論Robots協(xié)議下搜索引擎數(shù)據(jù)挖掘行為的法律責(zé)任[D]. 陳笑.北京郵電大學(xué) 2014
本文編號:3360845
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3360845.html
最近更新
教材專著