天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于主動(dòng)學(xué)習(xí)的中文分詞方法研究

發(fā)布時(shí)間:2021-07-29 15:14
  中文分詞是中文信息處理應(yīng)用的基礎(chǔ)工作,分詞結(jié)果好壞直接影響相關(guān)應(yīng)用的后續(xù)環(huán)節(jié)。目前基于有監(jiān)督學(xué)習(xí)的中文分詞方法在工業(yè)界得到了廣泛應(yīng)用并取得了良好的效果,但是有監(jiān)督學(xué)習(xí)方法依賴于大量的人工標(biāo)注數(shù)據(jù)。在特殊領(lǐng)域的中文文本分詞任務(wù)中,標(biāo)注數(shù)據(jù)非常稀少,同時(shí)標(biāo)注大量文本需要巨大的人工標(biāo)注成本,使得基于有監(jiān)督學(xué)習(xí)的中文分詞方法在這些文本上并不實(shí)用。在缺少標(biāo)注數(shù)據(jù)的情況下,如何保持分類模型的性能優(yōu)良得到了大量的研究,主動(dòng)學(xué)習(xí)方法就是一種有效實(shí)用的解決方法。本文采用主動(dòng)學(xué)習(xí)方法對(duì)中文分詞進(jìn)行研究,并改進(jìn)主動(dòng)學(xué)習(xí)框架中模型訓(xùn)練環(huán)節(jié),并基于本文研究?jī)?nèi)容實(shí)現(xiàn)半自動(dòng)標(biāo)注系統(tǒng)以優(yōu)化傳統(tǒng)的數(shù)據(jù)標(biāo)注形式。本文的主要研究工作有以下三方面:(1)基于主動(dòng)學(xué)習(xí)的中文分詞方法研究:利用條件熵度量樣本的不確定性,并選擇出不確定性最高的數(shù)據(jù)作為最具標(biāo)注價(jià)值的數(shù)據(jù)推薦給人工標(biāo)注,從而實(shí)現(xiàn)在小規(guī)模標(biāo)注數(shù)據(jù)集下,訓(xùn)練出高性能的中文分詞器。(2)采用半監(jiān)督學(xué)習(xí)訓(xùn)練中文分詞器:(1)中描述方法僅利用少量的標(biāo)注數(shù)據(jù)訓(xùn)練中文分詞器,而忽略了大量未標(biāo)注數(shù)據(jù)中的重要信息。在主動(dòng)學(xué)習(xí)框架下,采用EM算法訓(xùn)練中文分詞器,能夠充分地利用了標(biāo)注數(shù)據(jù)集... 

【文章來(lái)源】:成都信息工程大學(xué)四川省

【文章頁(yè)數(shù)】:53 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于主動(dòng)學(xué)習(xí)的中文分詞方法研究


特征抽取示例

框架圖,主動(dòng)學(xué)習(xí),框架,數(shù)據(jù)集


成都信息工程大學(xué)碩士學(xué)位論文第15頁(yè)共46頁(yè)段,即圖中5、6、7、8、9、10、3、4步驟,利用已有分類模型對(duì)整個(gè)未標(biāo)注數(shù)據(jù)集U進(jìn)行預(yù)測(cè),得到分詞結(jié)果,然后利用主動(dòng)學(xué)習(xí)的抽樣方法Q對(duì)所有實(shí)例進(jìn)行信息量度量,并推薦信息量最大的數(shù)據(jù)成為待標(biāo)注數(shù)據(jù),然后讓標(biāo)注人員S對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,然后將標(biāo)注后的數(shù)據(jù)追加到訓(xùn)練數(shù)據(jù)集L中,利用現(xiàn)有訓(xùn)練數(shù)據(jù)集L通過(guò)機(jī)器學(xué)習(xí)方法訓(xùn)練模型得到新的分類模型C,直到達(dá)到預(yù)先設(shè)置的停止條件,該循環(huán)階段結(jié)束。主動(dòng)學(xué)習(xí)框架如表3-1描述。圖3-1主動(dòng)學(xué)習(xí)框架根據(jù)主動(dòng)學(xué)習(xí)的描述,可以知道主動(dòng)學(xué)習(xí)的重點(diǎn)在于選擇策略以及模型訓(xùn)練部分,選擇策略即是如何從未標(biāo)注數(shù)據(jù)集中選擇出少量的典型數(shù)據(jù)。模型訓(xùn)練部分即是利用已標(biāo)注數(shù)據(jù)集如何訓(xùn)練分類模型。表3-1主動(dòng)學(xué)習(xí)框架輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標(biāo)注數(shù)據(jù)集L,分類模型C步驟:從U中隨機(jī)抽取少量數(shù)據(jù)作為待標(biāo)注數(shù)據(jù)將待標(biāo)注數(shù)據(jù)標(biāo)注后追加入標(biāo)注數(shù)據(jù)集L中進(jìn)入主動(dòng)學(xué)習(xí)迭代過(guò)程,不斷迭代直到滿足停止條件1使用現(xiàn)有的標(biāo)注數(shù)據(jù)集L訓(xùn)練一個(gè)分類模型C2使用當(dāng)前的分類模型C標(biāo)注未標(biāo)注數(shù)據(jù)集U每一條實(shí)例3利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實(shí)例的不確定性4抽取不確定性高的少量實(shí)例作為待標(biāo)注數(shù)據(jù)5將待標(biāo)注數(shù)據(jù)標(biāo)注后追加如標(biāo)注數(shù)據(jù)集L中初始數(shù)據(jù)集U隨機(jī)抽取待標(biāo)數(shù)據(jù)標(biāo)注專家S標(biāo)注數(shù)據(jù)集L分類模型C分類模型學(xué)習(xí)抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑩

框架圖,主動(dòng)學(xué)習(xí),監(jiān)督學(xué)習(xí),框架


成都信息工程大學(xué)碩士學(xué)位論文第19頁(yè)共46頁(yè)圖3-2采用半監(jiān)督學(xué)習(xí)訓(xùn)練模型的主動(dòng)學(xué)習(xí)框架表3-2采用半監(jiān)督學(xué)習(xí)訓(xùn)練模型的主動(dòng)學(xué)習(xí)框架描述輸入:初始數(shù)據(jù)集U,抽樣方法Q輸出:標(biāo)注數(shù)據(jù)集L,分類模型C步驟:從U中隨機(jī)抽取少量數(shù)據(jù)作為待標(biāo)注數(shù)據(jù)將待標(biāo)注數(shù)據(jù)標(biāo)注后追加入標(biāo)注數(shù)據(jù)集L中進(jìn)入主動(dòng)學(xué)習(xí)迭代,不斷迭代直到滿足停止條件1使用現(xiàn)有的標(biāo)注數(shù)據(jù)集L訓(xùn)練一個(gè)分類模型C2使用當(dāng)前的分類模型C標(biāo)注未標(biāo)注數(shù)據(jù)集U每一條實(shí)例3進(jìn)入EM迭代,直到收斂4利用抽樣方法Q去度量初始數(shù)據(jù)集U中的每一條實(shí)例的不確定性5抽取不確定性高的少量實(shí)例作為待標(biāo)注數(shù)據(jù)6將待標(biāo)注數(shù)據(jù)標(biāo)注后追加如標(biāo)注數(shù)據(jù)集L中主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)都是為了解決人工標(biāo)注瓶頸問(wèn)題而產(chǎn)生,其中主動(dòng)學(xué)習(xí)能夠在任何分布和任何領(lǐng)域下的數(shù)據(jù)進(jìn)行選擇數(shù)據(jù),而半監(jiān)督學(xué)習(xí)的前提是已標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)在同一個(gè)分布下,通過(guò)主動(dòng)學(xué)習(xí)去在特定分布的數(shù)據(jù)中選擇數(shù)據(jù)剛好也滿足半監(jiān)督學(xué)習(xí)的前提假設(shè)。另外主動(dòng)學(xué)習(xí)僅僅抽取最有信息量的數(shù)據(jù),即只有少量的標(biāo)注數(shù)據(jù),通過(guò)半監(jiān)督學(xué)習(xí)方法進(jìn)行模型訓(xùn)練,能夠極大提升分類模型的精度以及泛化能力。初始數(shù)據(jù)集U隨機(jī)抽取待標(biāo)數(shù)據(jù)標(biāo)注專家S標(biāo)注數(shù)據(jù)集L分類模型CEM迭代抽樣算法Q分類結(jié)果①②③④⑤⑥⑦⑨⑧⑤⑩

【參考文獻(xiàn)】:
期刊論文
[1]基于字典和統(tǒng)計(jì)的分詞方法[J]. 陳平,劉曉霞,李亞軍.  計(jì)算機(jī)工程與應(yīng)用. 2008(10)
[2]中文分詞十年回顧[J]. 黃昌寧,趙海.  中文信息學(xué)報(bào). 2007(03)
[3]書(shū)面漢語(yǔ)的自動(dòng)分詞與一個(gè)自動(dòng)分詞系統(tǒng)—CDWS[J]. 梁南元.  北京航空學(xué)院學(xué)報(bào). 1984(04)

博士論文
[1]主動(dòng)學(xué)習(xí)算法中采樣策略研究[D]. 吳偉寧.哈爾濱工業(yè)大學(xué) 2013



本文編號(hào):3309561

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3309561.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6a783***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
高清欧美大片免费在线观看| 国产又色又爽又黄又大| 亚洲一区二区三区国产| 国产精品亚洲综合天堂夜夜| 亚洲人午夜精品射精日韩 | 亚洲最新av在线观看| 色婷婷久久五月中文字幕| 99久久人妻精品免费一区| 国产日韩久久精品一区| 富婆又大又白又丰满又紧又硬| 中文字幕91在线观看| 亚洲熟女一区二区三四区| 亚洲熟女诱惑一区二区| 日本av在线不卡一区| 亚洲精品伦理熟女国产一区二区| 欧美同性视频免费观看| 插进她的身体里在线观看骚| 欧美日韩国产成人高潮| 亚洲专区中文字幕在线| 中文字幕人妻综合一区二区| 少妇丰满a一区二区三区| 国产成人av在线免播放观看av| 老司机精品福利视频在线播放| 日本男人女人干逼视频| 中文字幕人妻日本一区二区| 九九热精品视频免费观看| 国产一区麻豆水好多高潮| 九九热在线视频精品免费| 老司机精品福利视频在线播放| 欧美野外在线刺激在线观看| 国产亚洲神马午夜福利| 色一欲一性一乱—区二区三区| 国产丝袜极品黑色高跟鞋| 国产精品不卡高清在线观看| 亚洲男女性生活免费视频| 国产精品夜色一区二区三区不卡| 久久精品免费视看国产成人| 日韩一区二区三区四区乱码视频| 日韩性生活视频免费在线观看| 婷婷一区二区三区四区| 免费在线成人激情视频|