基于深度學習的多語種文本分類系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2020-09-30 10:32
隨著信息技術(shù)和全球化進程的發(fā)展,對于多語種文本信息的分析與共享成為人們生活和工作中不可或缺的一部分,因此對多語種文本分類技術(shù)的研究具有重要的應用價值。已有的文本分類研究成果,大多是面向單一語種環(huán)境的,當處理不同語種的文本時,往往需要訓練多個單語種文本分類系統(tǒng)來支持多語種數(shù)據(jù)集,工作成本較高,因此迫切需要開發(fā)多語種文本分類系統(tǒng),以適應用戶需求的變化。本學位論文針對中、英、朝三種語種的科技文獻摘要,研究多語種文本分類問題,采取各語種各自提取特征然后融合的策略解決語種障礙問題,通過搭建深度神經(jīng)網(wǎng)絡模型提高分類性能,并設計實現(xiàn)多語種文本分類系統(tǒng),為中英朝科技文獻跨語種共享平臺的建設奠定技術(shù)基礎。首先,收集中、英、朝三種語種的科技文獻摘要,將9萬余篇多語種摘要文本按內(nèi)容分為13個類別,組織成多語種平行語料庫。其次,提出一種基于雙向長短時記憶和卷積神經(jīng)網(wǎng)絡的多語種文本分類模型。結(jié)合主題向量和詞向量構(gòu)成各語種的文本表示,分別輸入到對應的子神經(jīng)網(wǎng)絡模型提取該語種更深層次的文本特征,然后將各語種的特征進行融合,最終輸出分類結(jié)果。最后,分析并設計系統(tǒng)功能模塊,開發(fā)多語種文本自動分類軟件系統(tǒng)。該系統(tǒng)可實現(xiàn)對中英朝任意語種的文本進行分類,并按類別存儲,也為用戶提供自主修改類別、查看文檔等功能,方便用戶管理。同時,用戶也可按需求在線對分類器進行更新,在保證分類準確度的同時增加了用戶的可控性。本文提出的多語種文本分類模型能夠降低對外部資源的依賴,實驗和系統(tǒng)運行結(jié)果表明,本文所提出的基于雙向長短時記憶和卷積神經(jīng)網(wǎng)絡的多語種文本分類模型相比于傳統(tǒng)方法,分類準確度提高了 2到5個百分點。另外,本文設計并實現(xiàn)的多語種文本分類系統(tǒng)核心功能完善,滿足實際應用的需求。
【學位單位】:延邊大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP391.1;TP18
【部分圖文】:
Fig.邋2-1邋LDA邋topic邋model逡逑狄利克雷分布a中取樣生成文檔w的主題分布心;逡逑主題的多項式分布^中取樣生成第m個文檔的第《個詞的主題逡逑狄利克雷分布A中取樣生成的主題&.?對應的詞語分布逡逑詞語的多項式分布^)^中采樣生成最終詞語逡逑過程,直到生成整篇i章。通過對LDA主題模型參數(shù)求解,可章的主題分布和每個主題的詞項分布IW。目前最常用的參數(shù)求解bs采樣法|35】,Gibbs采樣公式為:逡逑,7|邐、邋ni,^+at逡逑|邋w,邋0邋=邋—t—邐r-^r-r ̄i ̄ ̄-T邐(2L=丨(UA)逡逑,符號 ̄表示除去第/個詞,表示在第m個文檔中去除下后出現(xiàn)主題A的次數(shù),<,,表示在主題A中去除第/個詞后詞語/表示單詞總數(shù),尺表示主題個數(shù)。通過Gibbs采樣公式(2-1)最終題分布和主題-詞分布,如式(2-2)和(2-3)所示:逡逑^邐心/+叫逡逑=邐-
該模型通過訓練大規(guī)模的文本數(shù)據(jù)得到低維密集的詞向量,很好地表達了語逡逑義信息。Word2Vec邋模型包括邋CBOW(Continuous邋Bag-of邋Words)和邋Skip-Gram逡逑兩個結(jié)構(gòu),如圖2-2所示:逡逑CBOW邐Skip-Ngram逡逑input邋projection邋output邐input邋projectton邋output逡逑W-2邋|邋L邐0\邋I邋W邋2逡逑w0邋| ̄ ̄k\|邐0邋_邐_邐]y>| ̄ ̄|邋Wi逡逑)SUM邋一邋Wo邋Wo邋一^y)逡逑Wi邋r邐邐邐Wi逡逑W2邐'邐0s*邋w?逡逑圖2-2邋CBOW和Skip-Gram模型說明逡逑Fig.2-2邋Illustration邋of邋CBOW邋and邋Skip-Gram邋models逡逑從圖2-2中可以看出,這兩種模型結(jié)構(gòu)相似,都包括輸入層、映射層和逡逑輸出層,然而不同的是,CBOW模型的輸入是某個詞語的上下文,預測該詞逡逑語本身;Skip-Gram模型的輸入為一個詞語,預測該詞語的上下文。這兩種逡逑模型都是通過最大化對數(shù)似然函數(shù)得到詞向量的最優(yōu)解。CBOW模型的最大逡逑化對數(shù)似然函數(shù)為:逡逑10g/?(w*邋I邋Context(wk))邐(2_4)逡逑weC逡逑同理,Skip-Gmm模型的最大化似然函數(shù)為:逡逑L=Yj邋10gpiContextiyvk)邋|邋w,)邐(2-5)逡逑weC逡逑式(2-4)和式(2-5)中的C0rtfex/("w^表示詞語w*的上下文。為了提高模型逡逑的訓練速度
文本分類深度學習模型逡逑深度學習是一種深度神經(jīng)網(wǎng)絡結(jié)構(gòu),通過組合低層特征形成更加抽象的逡逑特征,以學習數(shù)據(jù)的分布式特征表示。深度學習在文本分類領域中最常逡逑兩大類模型是卷積神經(jīng)網(wǎng)絡(Convolutional邋Neural邋Networks,邋CNN)和循逡逑經(jīng)網(wǎng)絡(Recurrent邋Neural邋Networks,RNN)及其變體。下面介紹本文使用的逡逑學習基礎模型:卷積神經(jīng)網(wǎng)絡和長短時記憶單元。逡逑.1卷積神經(jīng)網(wǎng)絡模型逡逑卷積神經(jīng)網(wǎng)絡是一種具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡。近年來,CNN在圖逡逑理和語音信號等領域的研究己經(jīng)非常成熟,而2014年Kim提出的逡逑tCNN結(jié)構(gòu),首次將卷積神經(jīng)網(wǎng)絡運用于句子分類任務中,開啟了自然語逡逑理領域中深度學習的研究熱潮。逡逑TextCNN結(jié)構(gòu)如圖2-3所示,由輸入層、卷積層、池化層和輸出層組成,逡逑神經(jīng)網(wǎng)絡具有局部感知和參數(shù)共享兩個重要特征,可以有效減少神經(jīng)網(wǎng)逡逑參數(shù),降低模型的復雜度。下面將對每層的工作原理做詳細介紹。逡逑—逡逑
本文編號:2830715
【學位單位】:延邊大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP391.1;TP18
【部分圖文】:
Fig.邋2-1邋LDA邋topic邋model逡逑狄利克雷分布a中取樣生成文檔w的主題分布心;逡逑主題的多項式分布^中取樣生成第m個文檔的第《個詞的主題逡逑狄利克雷分布A中取樣生成的主題&.?對應的詞語分布逡逑詞語的多項式分布^)^中采樣生成最終詞語逡逑過程,直到生成整篇i章。通過對LDA主題模型參數(shù)求解,可章的主題分布和每個主題的詞項分布IW。目前最常用的參數(shù)求解bs采樣法|35】,Gibbs采樣公式為:逡逑,7|邐、邋ni,^+at逡逑|邋w,邋0邋=邋—t—邐r-^r-r ̄i ̄ ̄-T邐(2L=丨(UA)逡逑,符號 ̄表示除去第/個詞,表示在第m個文檔中去除下后出現(xiàn)主題A的次數(shù),<,,表示在主題A中去除第/個詞后詞語/表示單詞總數(shù),尺表示主題個數(shù)。通過Gibbs采樣公式(2-1)最終題分布和主題-詞分布,如式(2-2)和(2-3)所示:逡逑^邐心/+叫逡逑=邐-
該模型通過訓練大規(guī)模的文本數(shù)據(jù)得到低維密集的詞向量,很好地表達了語逡逑義信息。Word2Vec邋模型包括邋CBOW(Continuous邋Bag-of邋Words)和邋Skip-Gram逡逑兩個結(jié)構(gòu),如圖2-2所示:逡逑CBOW邐Skip-Ngram逡逑input邋projection邋output邐input邋projectton邋output逡逑W-2邋|邋L邐0\邋I邋W邋2逡逑w0邋| ̄ ̄k\|邐0邋_邐_邐]y>| ̄ ̄|邋Wi逡逑)SUM邋一邋Wo邋Wo邋一^y)逡逑Wi邋r邐邐邐Wi逡逑W2邐'邐0s*邋w?逡逑圖2-2邋CBOW和Skip-Gram模型說明逡逑Fig.2-2邋Illustration邋of邋CBOW邋and邋Skip-Gram邋models逡逑從圖2-2中可以看出,這兩種模型結(jié)構(gòu)相似,都包括輸入層、映射層和逡逑輸出層,然而不同的是,CBOW模型的輸入是某個詞語的上下文,預測該詞逡逑語本身;Skip-Gram模型的輸入為一個詞語,預測該詞語的上下文。這兩種逡逑模型都是通過最大化對數(shù)似然函數(shù)得到詞向量的最優(yōu)解。CBOW模型的最大逡逑化對數(shù)似然函數(shù)為:逡逑10g/?(w*邋I邋Context(wk))邐(2_4)逡逑weC逡逑同理,Skip-Gmm模型的最大化似然函數(shù)為:逡逑L=Yj邋10gpiContextiyvk)邋|邋w,)邐(2-5)逡逑weC逡逑式(2-4)和式(2-5)中的C0rtfex/("w^表示詞語w*的上下文。為了提高模型逡逑的訓練速度
文本分類深度學習模型逡逑深度學習是一種深度神經(jīng)網(wǎng)絡結(jié)構(gòu),通過組合低層特征形成更加抽象的逡逑特征,以學習數(shù)據(jù)的分布式特征表示。深度學習在文本分類領域中最常逡逑兩大類模型是卷積神經(jīng)網(wǎng)絡(Convolutional邋Neural邋Networks,邋CNN)和循逡逑經(jīng)網(wǎng)絡(Recurrent邋Neural邋Networks,RNN)及其變體。下面介紹本文使用的逡逑學習基礎模型:卷積神經(jīng)網(wǎng)絡和長短時記憶單元。逡逑.1卷積神經(jīng)網(wǎng)絡模型逡逑卷積神經(jīng)網(wǎng)絡是一種具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡。近年來,CNN在圖逡逑理和語音信號等領域的研究己經(jīng)非常成熟,而2014年Kim提出的逡逑tCNN結(jié)構(gòu),首次將卷積神經(jīng)網(wǎng)絡運用于句子分類任務中,開啟了自然語逡逑理領域中深度學習的研究熱潮。逡逑TextCNN結(jié)構(gòu)如圖2-3所示,由輸入層、卷積層、池化層和輸出層組成,逡逑神經(jīng)網(wǎng)絡具有局部感知和參數(shù)共享兩個重要特征,可以有效減少神經(jīng)網(wǎng)逡逑參數(shù),降低模型的復雜度。下面將對每層的工作原理做詳細介紹。逡逑—逡逑
【參考文獻】
相關期刊論文 前1條
1 張金鵬;周蘭江;線巖團;余正濤;何思蘭;;基于跨語言語料的漢泰詞分布表示[J];計算機工程與科學;2015年12期
相關博士學位論文 前1條
1 羅遠勝;跨語言信息檢索中雙語主題模型及算法研究[D];江西財經(jīng)大學;2013年
相關碩士學位論文 前8條
1 李振;基于互聯(lián)網(wǎng)的校園設備智能管理系統(tǒng)的設計與應用[D];華北電力大學;2018年
2 劉嬌;基于深度學習的多語種短文本分類方法的研究[D];延邊大學;2018年
3 歐陽文俊;文檔表示與雙語詞嵌入算法研究[D];中國科學技術(shù)大學;2018年
4 朱娟;基于貝葉斯算法的多語言文檔分類[D];蘇州大學;2016年
5 劉星佐;跨語言文本分類技術(shù)研究[D];國防科學技術(shù)大學;2016年
6 龔千健;基于循環(huán)神經(jīng)網(wǎng)絡模型的文本分類[D];華中科技大學;2016年
7 劉志紅;多語種多類別體系下文本自動分類系統(tǒng)的研究與實現(xiàn)[D];東北大學;2010年
8 畢文霞;基于中間語義的跨語言文本分類模型研究[D];江西師范大學;2008年
本文編號:2830715
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2830715.html
最近更新
教材專著