基于主動學習的中文分詞方法研究
發(fā)布時間:2021-07-29 15:14
中文分詞是中文信息處理應(yīng)用的基礎(chǔ)工作,分詞結(jié)果好壞直接影響相關(guān)應(yīng)用的后續(xù)環(huán)節(jié)。目前基于有監(jiān)督學習的中文分詞方法在工業(yè)界得到了廣泛應(yīng)用并取得了良好的效果,但是有監(jiān)督學習方法依賴于大量的人工標注數(shù)據(jù)。在特殊領(lǐng)域的中文文本分詞任務(wù)中,標注數(shù)據(jù)非常稀少,同時標注大量文本需要巨大的人工標注成本,使得基于有監(jiān)督學習的中文分詞方法在這些文本上并不實用。在缺少標注數(shù)據(jù)的情況下,如何保持分類模型的性能優(yōu)良得到了大量的研究,主動學習方法就是一種有效實用的解決方法。本文采用主動學習方法對中文分詞進行研究,并改進主動學習框架中模型訓練環(huán)節(jié),并基于本文研究內(nèi)容實現(xiàn)半自動標注系統(tǒng)以優(yōu)化傳統(tǒng)的數(shù)據(jù)標注形式。本文的主要研究工作有以下三方面:(1)基于主動學習的中文分詞方法研究:利用條件熵度量樣本的不確定性,并選擇出不確定性最高的數(shù)據(jù)作為最具標注價值的數(shù)據(jù)推薦給人工標注,從而實現(xiàn)在小規(guī)模標注數(shù)據(jù)集下,訓練出高性能的中文分詞器。(2)采用半監(jiān)督學習訓練中文分詞器:(1)中描述方法僅利用少量的標注數(shù)據(jù)訓練中文分詞器,而忽略了大量未標注數(shù)據(jù)中的重要信息。在主動學習框架下,采用EM算法訓練中文分詞器,能夠充分地利用了標注數(shù)據(jù)集...
【文章來源】:成都信息工程大學四川省
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
特征抽取示例
成都信息工程大學碩士學位論文第15頁共46頁段,即圖中5、6、7、8、9、10、3、4步驟,利用已有分類模型對整個未標注數(shù)據(jù)集U進行預(yù)測,得到分詞結(jié)果,然后利用主動學習的抽樣方法Q對所有實例進行信息量度量,并推薦信息量最大的數(shù)據(jù)成為待標注數(shù)據(jù),然后讓標注人員S對數(shù)據(jù)進行標注,然后將標注后的數(shù)據(jù)追加到訓練數(shù)據(jù)集L中,利用現(xiàn)有訓練數(shù)據(jù)集L通過機器學習方法訓練模型得到新的分類模型C,直到達到預(yù)先設(shè)置的停止條件,該循環(huán)階段結(jié)束。主動學習框架如表3-1描述。圖3-1主動學習框架根據(jù)主動學習的描述,可以知道主動學習的重點在于選擇策略以及模型訓練部分,選擇策略即是如何從未標注數(shù)據(jù)集中選擇出少量的典型數(shù)據(jù)。模型訓練部分即是利用已標注數(shù)據(jù)集如何訓練分類模型。表3-1主動學習框架輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標注數(shù)據(jù)集L,分類模型C步驟:從U中隨機抽取少量數(shù)據(jù)作為待標注數(shù)據(jù)將待標注數(shù)據(jù)標注后追加入標注數(shù)據(jù)集L中進入主動學習迭代過程,不斷迭代直到滿足停止條件1使用現(xiàn)有的標注數(shù)據(jù)集L訓練一個分類模型C2使用當前的分類模型C標注未標注數(shù)據(jù)集U每一條實例3利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實例的不確定性4抽取不確定性高的少量實例作為待標注數(shù)據(jù)5將待標注數(shù)據(jù)標注后追加如標注數(shù)據(jù)集L中初始數(shù)據(jù)集U隨機抽取待標數(shù)據(jù)標注專家S標注數(shù)據(jù)集L分類模型C分類模型學習抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑩
成都信息工程大學碩士學位論文第19頁共46頁圖3-2采用半監(jiān)督學習訓練模型的主動學習框架表3-2采用半監(jiān)督學習訓練模型的主動學習框架描述輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標注數(shù)據(jù)集L,分類模型C步驟:從U中隨機抽取少量數(shù)據(jù)作為待標注數(shù)據(jù)將待標注數(shù)據(jù)標注后追加入標注數(shù)據(jù)集L中進入主動學習迭代,不斷迭代直到滿足停止條件1使用現(xiàn)有的標注數(shù)據(jù)集L訓練一個分類模型C2使用當前的分類模型C標注未標注數(shù)據(jù)集U每一條實例3進入EM迭代,直到收斂4利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實例的不確定性5抽取不確定性高的少量實例作為待標注數(shù)據(jù)6將待標注數(shù)據(jù)標注后追加如標注數(shù)據(jù)集L中主動學習和半監(jiān)督學習都是為了解決人工標注瓶頸問題而產(chǎn)生,其中主動學習能夠在任何分布和任何領(lǐng)域下的數(shù)據(jù)進行選擇數(shù)據(jù),而半監(jiān)督學習的前提是已標注數(shù)據(jù)和未標注數(shù)據(jù)在同一個分布下,通過主動學習去在特定分布的數(shù)據(jù)中選擇數(shù)據(jù)剛好也滿足半監(jiān)督學習的前提假設(shè)。另外主動學習僅僅抽取最有信息量的數(shù)據(jù),即只有少量的標注數(shù)據(jù),通過半監(jiān)督學習方法進行模型訓練,能夠極大提升分類模型的精度以及泛化能力。初始數(shù)據(jù)集U隨機抽取待標數(shù)據(jù)標注專家S標注數(shù)據(jù)集L分類模型CEM迭代抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑤⑩
【參考文獻】:
期刊論文
[1]基于字典和統(tǒng)計的分詞方法[J]. 陳平,劉曉霞,李亞軍. 計算機工程與應(yīng)用. 2008(10)
[2]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學報. 2007(03)
[3]書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學院學報. 1984(04)
博士論文
[1]主動學習算法中采樣策略研究[D]. 吳偉寧.哈爾濱工業(yè)大學 2013
本文編號:3309561
【文章來源】:成都信息工程大學四川省
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【部分圖文】:
特征抽取示例
成都信息工程大學碩士學位論文第15頁共46頁段,即圖中5、6、7、8、9、10、3、4步驟,利用已有分類模型對整個未標注數(shù)據(jù)集U進行預(yù)測,得到分詞結(jié)果,然后利用主動學習的抽樣方法Q對所有實例進行信息量度量,并推薦信息量最大的數(shù)據(jù)成為待標注數(shù)據(jù),然后讓標注人員S對數(shù)據(jù)進行標注,然后將標注后的數(shù)據(jù)追加到訓練數(shù)據(jù)集L中,利用現(xiàn)有訓練數(shù)據(jù)集L通過機器學習方法訓練模型得到新的分類模型C,直到達到預(yù)先設(shè)置的停止條件,該循環(huán)階段結(jié)束。主動學習框架如表3-1描述。圖3-1主動學習框架根據(jù)主動學習的描述,可以知道主動學習的重點在于選擇策略以及模型訓練部分,選擇策略即是如何從未標注數(shù)據(jù)集中選擇出少量的典型數(shù)據(jù)。模型訓練部分即是利用已標注數(shù)據(jù)集如何訓練分類模型。表3-1主動學習框架輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標注數(shù)據(jù)集L,分類模型C步驟:從U中隨機抽取少量數(shù)據(jù)作為待標注數(shù)據(jù)將待標注數(shù)據(jù)標注后追加入標注數(shù)據(jù)集L中進入主動學習迭代過程,不斷迭代直到滿足停止條件1使用現(xiàn)有的標注數(shù)據(jù)集L訓練一個分類模型C2使用當前的分類模型C標注未標注數(shù)據(jù)集U每一條實例3利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實例的不確定性4抽取不確定性高的少量實例作為待標注數(shù)據(jù)5將待標注數(shù)據(jù)標注后追加如標注數(shù)據(jù)集L中初始數(shù)據(jù)集U隨機抽取待標數(shù)據(jù)標注專家S標注數(shù)據(jù)集L分類模型C分類模型學習抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑩
成都信息工程大學碩士學位論文第19頁共46頁圖3-2采用半監(jiān)督學習訓練模型的主動學習框架表3-2采用半監(jiān)督學習訓練模型的主動學習框架描述輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標注數(shù)據(jù)集L,分類模型C步驟:從U中隨機抽取少量數(shù)據(jù)作為待標注數(shù)據(jù)將待標注數(shù)據(jù)標注后追加入標注數(shù)據(jù)集L中進入主動學習迭代,不斷迭代直到滿足停止條件1使用現(xiàn)有的標注數(shù)據(jù)集L訓練一個分類模型C2使用當前的分類模型C標注未標注數(shù)據(jù)集U每一條實例3進入EM迭代,直到收斂4利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實例的不確定性5抽取不確定性高的少量實例作為待標注數(shù)據(jù)6將待標注數(shù)據(jù)標注后追加如標注數(shù)據(jù)集L中主動學習和半監(jiān)督學習都是為了解決人工標注瓶頸問題而產(chǎn)生,其中主動學習能夠在任何分布和任何領(lǐng)域下的數(shù)據(jù)進行選擇數(shù)據(jù),而半監(jiān)督學習的前提是已標注數(shù)據(jù)和未標注數(shù)據(jù)在同一個分布下,通過主動學習去在特定分布的數(shù)據(jù)中選擇數(shù)據(jù)剛好也滿足半監(jiān)督學習的前提假設(shè)。另外主動學習僅僅抽取最有信息量的數(shù)據(jù),即只有少量的標注數(shù)據(jù),通過半監(jiān)督學習方法進行模型訓練,能夠極大提升分類模型的精度以及泛化能力。初始數(shù)據(jù)集U隨機抽取待標數(shù)據(jù)標注專家S標注數(shù)據(jù)集L分類模型CEM迭代抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑤⑩
【參考文獻】:
期刊論文
[1]基于字典和統(tǒng)計的分詞方法[J]. 陳平,劉曉霞,李亞軍. 計算機工程與應(yīng)用. 2008(10)
[2]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學報. 2007(03)
[3]書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學院學報. 1984(04)
博士論文
[1]主動學習算法中采樣策略研究[D]. 吳偉寧.哈爾濱工業(yè)大學 2013
本文編號:3309561
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3309561.html
最近更新
教材專著