基于主動學習的中文分詞方法研究

發(fā)布時間：2021-07-29 15:14

　　中文分詞是中文信息處理應(yīng)用的基礎(chǔ)工作,分詞結(jié)果好壞直接影響相關(guān)應(yīng)用的后續(xù)環(huán)節(jié)。目前基于有監(jiān)督學習的中文分詞方法在工業(yè)界得到了廣泛應(yīng)用并取得了良好的效果,但是有監(jiān)督學習方法依賴于大量的人工標注數(shù)據(jù)。在特殊領(lǐng)域的中文文本分詞任務(wù)中,標注數(shù)據(jù)非常稀少,同時標注大量文本需要巨大的人工標注成本,使得基于有監(jiān)督學習的中文分詞方法在這些文本上并不實用。在缺少標注數(shù)據(jù)的情況下,如何保持分類模型的性能優(yōu)良得到了大量的研究,主動學習方法就是一種有效實用的解決方法。本文采用主動學習方法對中文分詞進行研究,并改進主動學習框架中模型訓練環(huán)節(jié),并基于本文研究內(nèi)容實現(xiàn)半自動標注系統(tǒng)以優(yōu)化傳統(tǒng)的數(shù)據(jù)標注形式。本文的主要研究工作有以下三方面:（1）基于主動學習的中文分詞方法研究:利用條件熵度量樣本的不確定性,并選擇出不確定性最高的數(shù)據(jù)作為最具標注價值的數(shù)據(jù)推薦給人工標注,從而實現(xiàn)在小規(guī)模標注數(shù)據(jù)集下,訓練出高性能的中文分詞器。（2）采用半監(jiān)督學習訓練中文分詞器:（1）中描述方法僅利用少量的標注數(shù)據(jù)訓練中文分詞器,而忽略了大量未標注數(shù)據(jù)中的重要信息。在主動學習框架下,采用EM算法訓練中文分詞器,能夠充分地利用了標注數(shù)據(jù)集...

【文章來源】：成都信息工程大學四川省

【文章頁數(shù)】：53 頁

【學位級別】：碩士

【部分圖文】：

基于主動學習的中文分詞方法研究

特征抽取示例

框架圖,主動學習,框架,數(shù)據(jù)集

成都信息工程大學碩士學位論文第15頁共46頁段，即圖中5、6、7、8、9、10、3、4步驟，利用已有分類模型對整個未標注數(shù)據(jù)集U進行預(yù)測，得到分詞結(jié)果，然后利用主動學習的抽樣方法Q對所有實例進行信息量度量，并推薦信息量最大的數(shù)據(jù)成為待標注數(shù)據(jù)，然后讓標注人員S對數(shù)據(jù)進行標注，然后將標注后的數(shù)據(jù)追加到訓練數(shù)據(jù)集L中，利用現(xiàn)有訓練數(shù)據(jù)集L通過機器學習方法訓練模型得到新的分類模型C，直到達到預(yù)先設(shè)置的停止條件，該循環(huán)階段結(jié)束。主動學習框架如表3-1描述。圖3-1主動學習框架根據(jù)主動學習的描述，可以知道主動學習的重點在于選擇策略以及模型訓練部分，選擇策略即是如何從未標注數(shù)據(jù)集中選擇出少量的典型數(shù)據(jù)。模型訓練部分即是利用已標注數(shù)據(jù)集如何訓練分類模型。表3-1主動學習框架輸入：初始數(shù)據(jù)集U，抽樣方法Q輸出：標注數(shù)據(jù)集L，分類模型C步驟：從U中隨機抽取少量數(shù)據(jù)作為待標注數(shù)據(jù)將待標注數(shù)據(jù)標注后追加入標注數(shù)據(jù)集L中進入主動學習迭代過程，不斷迭代直到滿足停止條件1使用現(xiàn)有的標注數(shù)據(jù)集L訓練一個分類模型C2使用當前的分類模型C標注未標注數(shù)據(jù)集U每一條實例3利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實例的不確定性4抽取不確定性高的少量實例作為待標注數(shù)據(jù)5將待標注數(shù)據(jù)標注后追加如標注數(shù)據(jù)集L中初始數(shù)據(jù)集U隨機抽取待標數(shù)據(jù)標注專家S標注數(shù)據(jù)集L分類模型C分類模型學習抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑩

框架圖,主動學習,監(jiān)督學習,框架

成都信息工程大學碩士學位論文第19頁共46頁圖3-2采用半監(jiān)督學習訓練模型的主動學習框架表3-2采用半監(jiān)督學習訓練模型的主動學習框架描述輸入：初始數(shù)據(jù)集U，抽樣方法Q輸出：標注數(shù)據(jù)集L，分類模型C步驟：從U中隨機抽取少量數(shù)據(jù)作為待標注數(shù)據(jù)將待標注數(shù)據(jù)標注后追加入標注數(shù)據(jù)集L中進入主動學習迭代，不斷迭代直到滿足停止條件1使用現(xiàn)有的標注數(shù)據(jù)集L訓練一個分類模型C2使用當前的分類模型C標注未標注數(shù)據(jù)集U每一條實例3進入EM迭代，直到收斂4利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實例的不確定性5抽取不確定性高的少量實例作為待標注數(shù)據(jù)6將待標注數(shù)據(jù)標注后追加如標注數(shù)據(jù)集L中主動學習和半監(jiān)督學習都是為了解決人工標注瓶頸問題而產(chǎn)生，其中主動學習能夠在任何分布和任何領(lǐng)域下的數(shù)據(jù)進行選擇數(shù)據(jù)，而半監(jiān)督學習的前提是已標注數(shù)據(jù)和未標注數(shù)據(jù)在同一個分布下，通過主動學習去在特定分布的數(shù)據(jù)中選擇數(shù)據(jù)剛好也滿足半監(jiān)督學習的前提假設(shè)。另外主動學習僅僅抽取最有信息量的數(shù)據(jù)，即只有少量的標注數(shù)據(jù)，通過半監(jiān)督學習方法進行模型訓練，能夠極大提升分類模型的精度以及泛化能力。初始數(shù)據(jù)集U隨機抽取待標數(shù)據(jù)標注專家S標注數(shù)據(jù)集L分類模型CEM迭代抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑤⑩

【參考文獻】：
期刊論文
[1]基于字典和統(tǒng)計的分詞方法[J]. 陳平,劉曉霞,李亞軍.  計算機工程與應(yīng)用. 2008(10)
[2]中文分詞十年回顧[J]. 黃昌寧,趙海.  中文信息學報. 2007(03)
[3]書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J]. 梁南元.  北京航空學院學報. 1984(04)

博士論文
[1]主動學習算法中采樣策略研究[D]. 吳偉寧.哈爾濱工業(yè)大學 2013

本文編號：3309561

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3309561.html

上一篇：基于大數(shù)據(jù)分析的數(shù)字電視智能終端精準消息推送系統(tǒng)
下一篇：基于MDA的移動用戶界面建模與轉(zhuǎn)換方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主動學習的中文分詞方法研究