基于樣本遷移學(xué)習(xí)的中文分詞領(lǐng)域自適應(yīng)方法的研究

發(fā)布時間：2020-06-07 05:34

【摘要】：中文分詞是指把一句漢語按照一定規(guī)范切分為一個個單獨的詞,是中文自然語言處理(Natural Language Processing,NLP)的一個基礎(chǔ)任務(wù),也是信息檢索、知識圖譜以及機器翻譯等其它NLP任務(wù)的關(guān)鍵底層任務(wù)。近年來,隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的分詞方法在自然語言處理領(lǐng)域得到廣泛應(yīng)用。不同于傳統(tǒng)的基于規(guī)則和統(tǒng)計的分詞方法,神經(jīng)網(wǎng)絡(luò)方法利用大規(guī)模標注數(shù)據(jù)訓(xùn)練得到泛化能力強的模型。然而中文分詞任務(wù)具有極強的領(lǐng)域適應(yīng)性,通常在一個領(lǐng)域訓(xùn)練得到的分詞模型應(yīng)用于其它領(lǐng)域時性能會有所下降。而目前公開的中文分詞數(shù)據(jù)集多為新聞領(lǐng)域,因此如何利用資源豐富的領(lǐng)域數(shù)據(jù)去提高資源匱乏領(lǐng)域的分詞性能就變得尤為重要。本文主要研究中文分詞的領(lǐng)域適應(yīng)性問題,當(dāng)前中文分詞的領(lǐng)域自適應(yīng)研究主要存在兩方面挑戰(zhàn):一方面,相同的單詞在不同領(lǐng)域內(nèi)的上下文和含義都有可能不同,導(dǎo)致歧義切分問題;另一方面,不同領(lǐng)域所包含的領(lǐng)域內(nèi)詞匯不盡相同,導(dǎo)致無法有效識別未登錄詞。針對以上挑戰(zhàn),本文提出基于樣本遷移學(xué)習(xí)的中文分詞領(lǐng)域自適應(yīng)方法。該方法的主要思想是通過分析源領(lǐng)域和目標領(lǐng)域數(shù)據(jù)的特點,選擇小規(guī)模有價值的樣本進行標注,然后利用標注后的樣本來幫助訓(xùn)練分詞模型,從而提高模型的領(lǐng)域自適應(yīng)能力。本文的主要貢獻如下:(1)針對當(dāng)前主流的神經(jīng)網(wǎng)絡(luò)中文分詞系統(tǒng)BiLSTM-CRF,提出了融合注意力機制和融合Bert語言模型兩種改進方案,分別為Att-BiLSTM-CRF框架和Bert-BiLSTM-CRF框架。其中注意力機制增加了歷史信息,Bert語言模型融入了更多的語義特征;(2)針對中文分詞的領(lǐng)域適應(yīng)性問題,通過分析源領(lǐng)域數(shù)據(jù)和目標領(lǐng)域數(shù)據(jù)的特點,提出了基于n元字向量的相似性計算方法,借助該方法可以選出與源領(lǐng)域結(jié)構(gòu)相似且包含未登錄詞的目標領(lǐng)域樣本;(3)針對中文分詞的領(lǐng)域適應(yīng)性問題,提出了基于樣本遷移的中文分詞領(lǐng)域自適應(yīng)方法。在樣本遷移過程時,本文提出基于相似性和不確定性的采樣策略來選擇樣本,并對模型的標注結(jié)果進行修正,避免了負遷移現(xiàn)象。本文研究是利用樣本遷移改善領(lǐng)域適應(yīng)性問題的進一步嘗試。實驗結(jié)果表明,本文方法能夠有效地增強模型的領(lǐng)域自適應(yīng)能力,提高中文分詞精度。
【圖文】：

隨機場,鏈式結(jié)構(gòu),條件,隨機變量序列

切分結(jié)果（輸出序列）ｒ，然后通過定義條件概率來描述模型。ＣＲＦ的輸逡逑入隨機變量作為條件，而輸出隨機變量假設(shè)是一個無向圖模型或者馬爾科夫隨機逡逑場。ＣＲＦ的圖模型結(jié)構(gòu)理論上可以任意給定，圖２－２展示了一個最簡單的線性鏈逡逑條件隨機場。逡逑ａ邐ｙ２邐ｌ邋廠，逡逑ｇ￣￣￣ｇ—逡逑圖２－２條件隨機場鏈式結(jié)構(gòu)圖逡逑Ｆｉｇｕｒｅ２－２邋ＣＲＦ邋ｃｈａｉｎ－ｓｔｒｕｃｔｕｒｅｄ邋ｇｒａｐｈ逡逑綜上所述，設(shè)有線性鏈結(jié)構(gòu)的隨機變量序列Ｚ邋＝邋（ｘｐｘ２，．．．，；ｃＪ，逡逑ｒ＝ＣＦｐｙ２，．．．，；0，在給定觀測序列ｘ的條件下，隨機變量序列ｒ的條件概率分布逡逑１１逡逑

網(wǎng)絡(luò)結(jié)構(gòu)圖,隱藏層,中文分詞,神經(jīng)網(wǎng)絡(luò)

的輸出則根據(jù)網(wǎng)絡(luò)的連接方式、權(quán)重值和激勵函數(shù)的不同而有所不同。神經(jīng)網(wǎng)絡(luò)逡逑可以被看作是一種數(shù)學(xué)模型或計算模型，目的是對某個函數(shù)的進行估計逡逑或近似，其中￣代表神經(jīng)網(wǎng)絡(luò)中的參數(shù)。圖２－４描述了一個簡單的神經(jīng)網(wǎng)絡(luò)，最左逡逑邊一層是輸入層，中間是隱藏層，右側(cè)是輸出層。其中輸入層接受數(shù)據(jù)輸入，輸逡逑出層輸出模型的結(jié)果。圖２－４中僅有一個隱藏層，有些網(wǎng)絡(luò)也可以有多個隱藏層。逡逑桑：逡逑輸入層邐隱層邋輸出層逡逑圖２－４yL經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖逡逑Ｆｉｇｕｒｅ２－４邋Ｎｅｕｒａｌ邋ｎｅｔｗｏｒｋ邋ｓｔｒｕｃｔｕｒｅ逡逑神經(jīng)網(wǎng)絡(luò)分詞方法把中文分詞任務(wù)看作是一個序列標注任務(wù)，輸入是一句話，逡逑輸出是一個標簽序列。一般來說，每個漢字都可以被標注為集合Ｌ邋＝邋｛５，Ｍ，五，，Ｒ中逡逑的一個，它們分別表示單詞的開始、中間、結(jié)束和一個單獨的詞。例如已分詞句逡逑子“我來自山東省。”對應(yīng)的標注序列為“ＳＢＥＢＭＥＳ”。逡逑給定一個長度為／的句子義，中文分詞任務(wù)的目的就是找出最優(yōu)逡逑的標注序列；．，心，求解過程如公式（２－７）所示：逡逑ｙ＾ａｒｇｍａｘ＾ＦＩＸ）邐（２－７）逡逑Ｙｅｌ！逡逑其中Ｚ邋＝邋五
【學(xué)位授予單位】：北京交通大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2019
【分類號】：TP391.1;TP181

【參考文獻】

相關(guān)期刊論文前9條

1 韓冰;劉一佳;車萬翔;劉挺;;基于感知器的中文分詞增量訓(xùn)練方法研究[J];中文信息學(xué)報;2015年05期

2 許華婷;張玉潔;楊曉暉;單華;徐金安;陳鈺楓;;基于Active Learning的中文分詞領(lǐng)域自適應(yīng)[J];中文信息學(xué)報;2015年05期

3 韓冬煦;常寶寶;;中文分詞模型的領(lǐng)域適應(yīng)性方法[J];計算機學(xué)報;2015年02期

4 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J];中文信息學(xué)報;2012年02期

5 趙海;揭春雨;;基于有效子串標注的中文分詞[J];中文信息學(xué)報;2007年05期

6 張李義;李亞子;;基于反序詞典的中文逆向最大匹配分詞系統(tǒng)設(shè)計[J];現(xiàn)代圖書情報技術(shù);2006年08期

7 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報;2002年05期

8 肖志輝,張祖蔭,韓少杰;智能出卷測試系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2000年10期

9 路志英,林孔元,郭祺,段廣玉;中文切分詞典的最大匹配索引法[J];天津大學(xué)學(xué)報;1999年05期

相關(guān)碩士學(xué)位論文前2條

1 岳中原;詞典與統(tǒng)計相結(jié)合的中文分詞的研究[D];武漢理工大學(xué);2010年

2 戴文淵;基于實例和特征的遷移學(xué)習(xí)算法研究[D];上海交通大學(xué);2009年

本文編號：2700925

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2700925.html

上一篇：面向機器人協(xié)同的數(shù)據(jù)互操作測試知識庫設(shè)計與實現(xiàn)
下一篇：基于稀疏組合學(xué)習(xí)的鐵路場景異常事件檢測方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于樣本遷移學(xué)習(xí)的中文分詞領(lǐng)域自適應(yīng)方法的研究