基于主動(dòng)學(xué)習(xí)的中文分詞方法研究
發(fā)布時(shí)間:2021-07-29 15:14
中文分詞是中文信息處理應(yīng)用的基礎(chǔ)工作,分詞結(jié)果好壞直接影響相關(guān)應(yīng)用的后續(xù)環(huán)節(jié)。目前基于有監(jiān)督學(xué)習(xí)的中文分詞方法在工業(yè)界得到了廣泛應(yīng)用并取得了良好的效果,但是有監(jiān)督學(xué)習(xí)方法依賴于大量的人工標(biāo)注數(shù)據(jù)。在特殊領(lǐng)域的中文文本分詞任務(wù)中,標(biāo)注數(shù)據(jù)非常稀少,同時(shí)標(biāo)注大量文本需要巨大的人工標(biāo)注成本,使得基于有監(jiān)督學(xué)習(xí)的中文分詞方法在這些文本上并不實(shí)用。在缺少標(biāo)注數(shù)據(jù)的情況下,如何保持分類模型的性能優(yōu)良得到了大量的研究,主動(dòng)學(xué)習(xí)方法就是一種有效實(shí)用的解決方法。本文采用主動(dòng)學(xué)習(xí)方法對(duì)中文分詞進(jìn)行研究,并改進(jìn)主動(dòng)學(xué)習(xí)框架中模型訓(xùn)練環(huán)節(jié),并基于本文研究?jī)?nèi)容實(shí)現(xiàn)半自動(dòng)標(biāo)注系統(tǒng)以優(yōu)化傳統(tǒng)的數(shù)據(jù)標(biāo)注形式。本文的主要研究工作有以下三方面:(1)基于主動(dòng)學(xué)習(xí)的中文分詞方法研究:利用條件熵度量樣本的不確定性,并選擇出不確定性最高的數(shù)據(jù)作為最具標(biāo)注價(jià)值的數(shù)據(jù)推薦給人工標(biāo)注,從而實(shí)現(xiàn)在小規(guī)模標(biāo)注數(shù)據(jù)集下,訓(xùn)練出高性能的中文分詞器。(2)采用半監(jiān)督學(xué)習(xí)訓(xùn)練中文分詞器:(1)中描述方法僅利用少量的標(biāo)注數(shù)據(jù)訓(xùn)練中文分詞器,而忽略了大量未標(biāo)注數(shù)據(jù)中的重要信息。在主動(dòng)學(xué)習(xí)框架下,采用EM算法訓(xùn)練中文分詞器,能夠充分地利用了標(biāo)注數(shù)據(jù)集...
【文章來(lái)源】:成都信息工程大學(xué)四川省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
特征抽取示例
成都信息工程大學(xué)碩士學(xué)位論文第15頁(yè)共46頁(yè)段,即圖中5、6、7、8、9、10、3、4步驟,利用已有分類模型對(duì)整個(gè)未標(biāo)注數(shù)據(jù)集U進(jìn)行預(yù)測(cè),得到分詞結(jié)果,然后利用主動(dòng)學(xué)習(xí)的抽樣方法Q對(duì)所有實(shí)例進(jìn)行信息量度量,并推薦信息量最大的數(shù)據(jù)成為待標(biāo)注數(shù)據(jù),然后讓標(biāo)注人員S對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,然后將標(biāo)注后的數(shù)據(jù)追加到訓(xùn)練數(shù)據(jù)集L中,利用現(xiàn)有訓(xùn)練數(shù)據(jù)集L通過(guò)機(jī)器學(xué)習(xí)方法訓(xùn)練模型得到新的分類模型C,直到達(dá)到預(yù)先設(shè)置的停止條件,該循環(huán)階段結(jié)束。主動(dòng)學(xué)習(xí)框架如表3-1描述。圖3-1主動(dòng)學(xué)習(xí)框架根據(jù)主動(dòng)學(xué)習(xí)的描述,可以知道主動(dòng)學(xué)習(xí)的重點(diǎn)在于選擇策略以及模型訓(xùn)練部分,選擇策略即是如何從未標(biāo)注數(shù)據(jù)集中選擇出少量的典型數(shù)據(jù)。模型訓(xùn)練部分即是利用已標(biāo)注數(shù)據(jù)集如何訓(xùn)練分類模型。表3-1主動(dòng)學(xué)習(xí)框架輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標(biāo)注數(shù)據(jù)集L,分類模型C步驟:從U中隨機(jī)抽取少量數(shù)據(jù)作為待標(biāo)注數(shù)據(jù)將待標(biāo)注數(shù)據(jù)標(biāo)注后追加入標(biāo)注數(shù)據(jù)集L中進(jìn)入主動(dòng)學(xué)習(xí)迭代過(guò)程,不斷迭代直到滿足停止條件1使用現(xiàn)有的標(biāo)注數(shù)據(jù)集L訓(xùn)練一個(gè)分類模型C2使用當(dāng)前的分類模型C標(biāo)注未標(biāo)注數(shù)據(jù)集U每一條實(shí)例3利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實(shí)例的不確定性4抽取不確定性高的少量實(shí)例作為待標(biāo)注數(shù)據(jù)5將待標(biāo)注數(shù)據(jù)標(biāo)注后追加如標(biāo)注數(shù)據(jù)集L中初始數(shù)據(jù)集U隨機(jī)抽取待標(biāo)數(shù)據(jù)標(biāo)注專家S標(biāo)注數(shù)據(jù)集L分類模型C分類模型學(xué)習(xí)抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑩
成都信息工程大學(xué)碩士學(xué)位論文第19頁(yè)共46頁(yè)圖3-2采用半監(jiān)督學(xué)習(xí)訓(xùn)練模型的主動(dòng)學(xué)習(xí)框架表3-2采用半監(jiān)督學(xué)習(xí)訓(xùn)練模型的主動(dòng)學(xué)習(xí)框架描述輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標(biāo)注數(shù)據(jù)集L,分類模型C步驟:從U中隨機(jī)抽取少量數(shù)據(jù)作為待標(biāo)注數(shù)據(jù)將待標(biāo)注數(shù)據(jù)標(biāo)注后追加入標(biāo)注數(shù)據(jù)集L中進(jìn)入主動(dòng)學(xué)習(xí)迭代,不斷迭代直到滿足停止條件1使用現(xiàn)有的標(biāo)注數(shù)據(jù)集L訓(xùn)練一個(gè)分類模型C2使用當(dāng)前的分類模型C標(biāo)注未標(biāo)注數(shù)據(jù)集U每一條實(shí)例3進(jìn)入EM迭代,直到收斂4利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實(shí)例的不確定性5抽取不確定性高的少量實(shí)例作為待標(biāo)注數(shù)據(jù)6將待標(biāo)注數(shù)據(jù)標(biāo)注后追加如標(biāo)注數(shù)據(jù)集L中主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)都是為了解決人工標(biāo)注瓶頸問(wèn)題而產(chǎn)生,其中主動(dòng)學(xué)習(xí)能夠在任何分布和任何領(lǐng)域下的數(shù)據(jù)進(jìn)行選擇數(shù)據(jù),而半監(jiān)督學(xué)習(xí)的前提是已標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)在同一個(gè)分布下,通過(guò)主動(dòng)學(xué)習(xí)去在特定分布的數(shù)據(jù)中選擇數(shù)據(jù)剛好也滿足半監(jiān)督學(xué)習(xí)的前提假設(shè)。另外主動(dòng)學(xué)習(xí)僅僅抽取最有信息量的數(shù)據(jù),即只有少量的標(biāo)注數(shù)據(jù),通過(guò)半監(jiān)督學(xué)習(xí)方法進(jìn)行模型訓(xùn)練,能夠極大提升分類模型的精度以及泛化能力。初始數(shù)據(jù)集U隨機(jī)抽取待標(biāo)數(shù)據(jù)標(biāo)注專家S標(biāo)注數(shù)據(jù)集L分類模型CEM迭代抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑤⑩
【參考文獻(xiàn)】:
期刊論文
[1]基于字典和統(tǒng)計(jì)的分詞方法[J]. 陳平,劉曉霞,李亞軍. 計(jì)算機(jī)工程與應(yīng)用. 2008(10)
[2]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學(xué)報(bào). 2007(03)
[3]書(shū)面漢語(yǔ)的自動(dòng)分詞與一個(gè)自動(dòng)分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學(xué)院學(xué)報(bào). 1984(04)
博士論文
[1]主動(dòng)學(xué)習(xí)算法中采樣策略研究[D]. 吳偉寧.哈爾濱工業(yè)大學(xué) 2013
本文編號(hào):3309561
【文章來(lái)源】:成都信息工程大學(xué)四川省
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
特征抽取示例
成都信息工程大學(xué)碩士學(xué)位論文第15頁(yè)共46頁(yè)段,即圖中5、6、7、8、9、10、3、4步驟,利用已有分類模型對(duì)整個(gè)未標(biāo)注數(shù)據(jù)集U進(jìn)行預(yù)測(cè),得到分詞結(jié)果,然后利用主動(dòng)學(xué)習(xí)的抽樣方法Q對(duì)所有實(shí)例進(jìn)行信息量度量,并推薦信息量最大的數(shù)據(jù)成為待標(biāo)注數(shù)據(jù),然后讓標(biāo)注人員S對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,然后將標(biāo)注后的數(shù)據(jù)追加到訓(xùn)練數(shù)據(jù)集L中,利用現(xiàn)有訓(xùn)練數(shù)據(jù)集L通過(guò)機(jī)器學(xué)習(xí)方法訓(xùn)練模型得到新的分類模型C,直到達(dá)到預(yù)先設(shè)置的停止條件,該循環(huán)階段結(jié)束。主動(dòng)學(xué)習(xí)框架如表3-1描述。圖3-1主動(dòng)學(xué)習(xí)框架根據(jù)主動(dòng)學(xué)習(xí)的描述,可以知道主動(dòng)學(xué)習(xí)的重點(diǎn)在于選擇策略以及模型訓(xùn)練部分,選擇策略即是如何從未標(biāo)注數(shù)據(jù)集中選擇出少量的典型數(shù)據(jù)。模型訓(xùn)練部分即是利用已標(biāo)注數(shù)據(jù)集如何訓(xùn)練分類模型。表3-1主動(dòng)學(xué)習(xí)框架輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標(biāo)注數(shù)據(jù)集L,分類模型C步驟:從U中隨機(jī)抽取少量數(shù)據(jù)作為待標(biāo)注數(shù)據(jù)將待標(biāo)注數(shù)據(jù)標(biāo)注后追加入標(biāo)注數(shù)據(jù)集L中進(jìn)入主動(dòng)學(xué)習(xí)迭代過(guò)程,不斷迭代直到滿足停止條件1使用現(xiàn)有的標(biāo)注數(shù)據(jù)集L訓(xùn)練一個(gè)分類模型C2使用當(dāng)前的分類模型C標(biāo)注未標(biāo)注數(shù)據(jù)集U每一條實(shí)例3利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實(shí)例的不確定性4抽取不確定性高的少量實(shí)例作為待標(biāo)注數(shù)據(jù)5將待標(biāo)注數(shù)據(jù)標(biāo)注后追加如標(biāo)注數(shù)據(jù)集L中初始數(shù)據(jù)集U隨機(jī)抽取待標(biāo)數(shù)據(jù)標(biāo)注專家S標(biāo)注數(shù)據(jù)集L分類模型C分類模型學(xué)習(xí)抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑩
成都信息工程大學(xué)碩士學(xué)位論文第19頁(yè)共46頁(yè)圖3-2采用半監(jiān)督學(xué)習(xí)訓(xùn)練模型的主動(dòng)學(xué)習(xí)框架表3-2采用半監(jiān)督學(xué)習(xí)訓(xùn)練模型的主動(dòng)學(xué)習(xí)框架描述輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標(biāo)注數(shù)據(jù)集L,分類模型C步驟:從U中隨機(jī)抽取少量數(shù)據(jù)作為待標(biāo)注數(shù)據(jù)將待標(biāo)注數(shù)據(jù)標(biāo)注后追加入標(biāo)注數(shù)據(jù)集L中進(jìn)入主動(dòng)學(xué)習(xí)迭代,不斷迭代直到滿足停止條件1使用現(xiàn)有的標(biāo)注數(shù)據(jù)集L訓(xùn)練一個(gè)分類模型C2使用當(dāng)前的分類模型C標(biāo)注未標(biāo)注數(shù)據(jù)集U每一條實(shí)例3進(jìn)入EM迭代,直到收斂4利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實(shí)例的不確定性5抽取不確定性高的少量實(shí)例作為待標(biāo)注數(shù)據(jù)6將待標(biāo)注數(shù)據(jù)標(biāo)注后追加如標(biāo)注數(shù)據(jù)集L中主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)都是為了解決人工標(biāo)注瓶頸問(wèn)題而產(chǎn)生,其中主動(dòng)學(xué)習(xí)能夠在任何分布和任何領(lǐng)域下的數(shù)據(jù)進(jìn)行選擇數(shù)據(jù),而半監(jiān)督學(xué)習(xí)的前提是已標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)在同一個(gè)分布下,通過(guò)主動(dòng)學(xué)習(xí)去在特定分布的數(shù)據(jù)中選擇數(shù)據(jù)剛好也滿足半監(jiān)督學(xué)習(xí)的前提假設(shè)。另外主動(dòng)學(xué)習(xí)僅僅抽取最有信息量的數(shù)據(jù),即只有少量的標(biāo)注數(shù)據(jù),通過(guò)半監(jiān)督學(xué)習(xí)方法進(jìn)行模型訓(xùn)練,能夠極大提升分類模型的精度以及泛化能力。初始數(shù)據(jù)集U隨機(jī)抽取待標(biāo)數(shù)據(jù)標(biāo)注專家S標(biāo)注數(shù)據(jù)集L分類模型CEM迭代抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑤⑩
【參考文獻(xiàn)】:
期刊論文
[1]基于字典和統(tǒng)計(jì)的分詞方法[J]. 陳平,劉曉霞,李亞軍. 計(jì)算機(jī)工程與應(yīng)用. 2008(10)
[2]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學(xué)報(bào). 2007(03)
[3]書(shū)面漢語(yǔ)的自動(dòng)分詞與一個(gè)自動(dòng)分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學(xué)院學(xué)報(bào). 1984(04)
博士論文
[1]主動(dòng)學(xué)習(xí)算法中采樣策略研究[D]. 吳偉寧.哈爾濱工業(yè)大學(xué) 2013
本文編號(hào):3309561
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3309561.html
最近更新
教材專著