天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于樣本遷移學(xué)習(xí)的中文分詞領(lǐng)域自適應(yīng)方法的研究

發(fā)布時間:2020-06-07 05:34
【摘要】:中文分詞是指把一句漢語按照一定規(guī)范切分為一個個單獨的詞,是中文自然語言處理(Natural Language Processing,NLP)的一個基礎(chǔ)任務(wù),也是信息檢索、知識圖譜以及機器翻譯等其它NLP任務(wù)的關(guān)鍵底層任務(wù)。近年來,隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的分詞方法在自然語言處理領(lǐng)域得到廣泛應(yīng)用。不同于傳統(tǒng)的基于規(guī)則和統(tǒng)計的分詞方法,神經(jīng)網(wǎng)絡(luò)方法利用大規(guī)模標注數(shù)據(jù)訓(xùn)練得到泛化能力強的模型。然而中文分詞任務(wù)具有極強的領(lǐng)域適應(yīng)性,通常在一個領(lǐng)域訓(xùn)練得到的分詞模型應(yīng)用于其它領(lǐng)域時性能會有所下降。而目前公開的中文分詞數(shù)據(jù)集多為新聞領(lǐng)域,因此如何利用資源豐富的領(lǐng)域數(shù)據(jù)去提高資源匱乏領(lǐng)域的分詞性能就變得尤為重要。本文主要研究中文分詞的領(lǐng)域適應(yīng)性問題,當(dāng)前中文分詞的領(lǐng)域自適應(yīng)研究主要存在兩方面挑戰(zhàn):一方面,相同的單詞在不同領(lǐng)域內(nèi)的上下文和含義都有可能不同,導(dǎo)致歧義切分問題;另一方面,不同領(lǐng)域所包含的領(lǐng)域內(nèi)詞匯不盡相同,導(dǎo)致無法有效識別未登錄詞。針對以上挑戰(zhàn),本文提出基于樣本遷移學(xué)習(xí)的中文分詞領(lǐng)域自適應(yīng)方法。該方法的主要思想是通過分析源領(lǐng)域和目標領(lǐng)域數(shù)據(jù)的特點,選擇小規(guī)模有價值的樣本進行標注,然后利用標注后的樣本來幫助訓(xùn)練分詞模型,從而提高模型的領(lǐng)域自適應(yīng)能力。本文的主要貢獻如下:(1)針對當(dāng)前主流的神經(jīng)網(wǎng)絡(luò)中文分詞系統(tǒng)BiLSTM-CRF,提出了融合注意力機制和融合Bert語言模型兩種改進方案,分別為Att-BiLSTM-CRF框架和Bert-BiLSTM-CRF框架。其中注意力機制增加了歷史信息,Bert語言模型融入了更多的語義特征;(2)針對中文分詞的領(lǐng)域適應(yīng)性問題,通過分析源領(lǐng)域數(shù)據(jù)和目標領(lǐng)域數(shù)據(jù)的特點,提出了基于n元字向量的相似性計算方法,借助該方法可以選出與源領(lǐng)域結(jié)構(gòu)相似且包含未登錄詞的目標領(lǐng)域樣本;(3)針對中文分詞的領(lǐng)域適應(yīng)性問題,提出了基于樣本遷移的中文分詞領(lǐng)域自適應(yīng)方法。在樣本遷移過程時,本文提出基于相似性和不確定性的采樣策略來選擇樣本,并對模型的標注結(jié)果進行修正,避免了負遷移現(xiàn)象。本文研究是利用樣本遷移改善領(lǐng)域適應(yīng)性問題的進一步嘗試。實驗結(jié)果表明,本文方法能夠有效地增強模型的領(lǐng)域自適應(yīng)能力,提高中文分詞精度。
【圖文】:

隨機場,鏈式結(jié)構(gòu),條件,隨機變量序列


切分結(jié)果(輸出序列)r,然后通過定義條件概率來描述模型。CRF的輸逡逑入隨機變量作為條件,而輸出隨機變量假設(shè)是一個無向圖模型或者馬爾科夫隨機逡逑場。CRF的圖模型結(jié)構(gòu)理論上可以任意給定,圖2-2展示了一個最簡單的線性鏈逡逑條件隨機場。逡逑a邐y2邐l邋廠,逡逑g ̄ ̄ ̄g—逡逑圖2-2條件隨機場鏈式結(jié)構(gòu)圖逡逑Figure2-2邋CRF邋chain-structured邋graph逡逑綜上所述,設(shè)有線性鏈結(jié)構(gòu)的隨機變量序列Z邋=邋(xpx2,...,;cJ,逡逑r=CFpy2,...,;0,在給定觀測序列x的條件下,隨機變量序列r的條件概率分布逡逑11逡逑

網(wǎng)絡(luò)結(jié)構(gòu)圖,隱藏層,中文分詞,神經(jīng)網(wǎng)絡(luò)


的輸出則根據(jù)網(wǎng)絡(luò)的連接方式、權(quán)重值和激勵函數(shù)的不同而有所不同。神經(jīng)網(wǎng)絡(luò)逡逑可以被看作是一種數(shù)學(xué)模型或計算模型,目的是對某個函數(shù)的進行估計逡逑或近似,其中 ̄代表神經(jīng)網(wǎng)絡(luò)中的參數(shù)。圖2-4描述了一個簡單的神經(jīng)網(wǎng)絡(luò),最左逡逑邊一層是輸入層,中間是隱藏層,右側(cè)是輸出層。其中輸入層接受數(shù)據(jù)輸入,輸逡逑出層輸出模型的結(jié)果。圖2-4中僅有一個隱藏層,有些網(wǎng)絡(luò)也可以有多個隱藏層。逡逑桑:逡逑輸入層邐隱層邋輸出層逡逑圖2-4yL經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖逡逑Figure2-4邋Neural邋network邋structure逡逑神經(jīng)網(wǎng)絡(luò)分詞方法把中文分詞任務(wù)看作是一個序列標注任務(wù),輸入是一句話,逡逑輸出是一個標簽序列。一般來說,每個漢字都可以被標注為集合L邋=邋{5,M,五,,R中逡逑的一個,它們分別表示單詞的開始、中間、結(jié)束和一個單獨的詞。例如已分詞句逡逑子“我來自山東省。”對應(yīng)的標注序列為“SBEBMES”。逡逑給定一個長度為/的句子義,中文分詞任務(wù)的目的就是找出最優(yōu)逡逑的標注序列;.,心,求解過程如公式(2-7)所示:逡逑y^argmax^FIX)邐(2-7)逡逑Yel!逡逑其中Z邋=邋五
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP181

【參考文獻】

相關(guān)期刊論文 前9條

1 韓冰;劉一佳;車萬翔;劉挺;;基于感知器的中文分詞增量訓(xùn)練方法研究[J];中文信息學(xué)報;2015年05期

2 許華婷;張玉潔;楊曉暉;單華;徐金安;陳鈺楓;;基于Active Learning的中文分詞領(lǐng)域自適應(yīng)[J];中文信息學(xué)報;2015年05期

3 韓冬煦;常寶寶;;中文分詞模型的領(lǐng)域適應(yīng)性方法[J];計算機學(xué)報;2015年02期

4 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J];中文信息學(xué)報;2012年02期

5 趙海;揭春雨;;基于有效子串標注的中文分詞[J];中文信息學(xué)報;2007年05期

6 張李義;李亞子;;基于反序詞典的中文逆向最大匹配分詞系統(tǒng)設(shè)計[J];現(xiàn)代圖書情報技術(shù);2006年08期

7 張華平,劉群;基于N-最短路徑方法的中文詞語粗分模型[J];中文信息學(xué)報;2002年05期

8 肖志輝,張祖蔭,韓少杰;智能出卷測試系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2000年10期

9 路志英,林孔元,郭祺,段廣玉;中文切分詞典的最大匹配索引法[J];天津大學(xué)學(xué)報;1999年05期

相關(guān)碩士學(xué)位論文 前2條

1 岳中原;詞典與統(tǒng)計相結(jié)合的中文分詞的研究[D];武漢理工大學(xué);2010年

2 戴文淵;基于實例和特征的遷移學(xué)習(xí)算法研究[D];上海交通大學(xué);2009年



本文編號:2700925

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2700925.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cd791***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com