使用無監(jiān)督學(xué)習(xí)改進中文分詞
本文關(guān)鍵詞: 中文分詞 詞向量 無監(jiān)督學(xué)習(xí) 未登陸詞 分詞優(yōu)化 互聯(lián)網(wǎng)語料 出處:《小型微型計算機系統(tǒng)》2017年04期 論文類型:期刊論文
【摘要】:針對互聯(lián)網(wǎng)語料中的未登錄詞問題,提出一種基于無監(jiān)督學(xué)習(xí)的中文分詞改進算法.使用基準(zhǔn)分詞器對未標(biāo)注的語料進行分詞,選擇適合于未登錄詞發(fā)現(xiàn)的模型進行無監(jiān)督訓(xùn)練得到詞向量,并使用詞向量結(jié)果貪心地發(fā)現(xiàn)未登錄詞,修正分詞結(jié)果.在傳統(tǒng)中文語料上與互聯(lián)網(wǎng)語料上,比較了基于字典的字符串匹配模型與基于字符標(biāo)注的機器學(xué)習(xí)模型的分詞效果.實驗結(jié)果表明,改進算法可以提升中文分詞效果,在互聯(lián)網(wǎng)語料上的提升效果尤為明顯.改進算法在PKU語料上取得了最多1.1%的F值提升,在MSR語料上取得了最多1.2%的F值提升,在互聯(lián)網(wǎng)語料上取得了最多5%的F值提升.
[Abstract]:In order to solve the problem of unrecorded words in Internet corpus, an improved Chinese word segmentation algorithm based on unsupervised learning is proposed. Select the model suitable for unrecorded word discovery to get word vector, and use word vector result to find unregistered word covetously, correct the result of word segmentation. In the traditional Chinese corpus and the Internet corpus, The segmentation effect of string matching model based on dictionary and machine learning model based on character annotation is compared. The experimental results show that the improved algorithm can improve the effect of Chinese word segmentation. The improved algorithm achieved a maximum of 1.1% F on the PKU corpus, 1.2% F on the MSR corpus and 5% on the Internet corpus.
【作者單位】: 上海交通大學(xué)信息安全工程學(xué)院;
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前1條
1 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報;2007年03期
【共引文獻】
相關(guān)期刊論文 前10條
1 王曉玉;李斌;;基于CRFs和詞典信息的中古漢語自動分詞[J];數(shù)據(jù)分析與知識發(fā)現(xiàn);2017年05期
2 金哲凡;俞定國;林生佑;周忠成;;基于音位的網(wǎng)絡(luò)盜版文本查重方法[J];山東農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版);2017年03期
3 沈翔翔;李小勇;;使用無監(jiān)督學(xué)習(xí)改進中文分詞[J];小型微型計算機系統(tǒng);2017年04期
4 胡婕;張俊馳;;雙向循環(huán)網(wǎng)絡(luò)中文分詞模型[J];小型微型計算機系統(tǒng);2017年03期
5 張少陽;王裴巖;蔡東風(fēng);;一種基于字的多模型中文分詞方法[J];沈陽航空航天大學(xué)學(xué)報;2017年01期
6 張越;王東波;朱丹浩;;面向食品安全突發(fā)事件漢語分詞的特征選擇及模型優(yōu)化研究[J];數(shù)據(jù)分析與知識發(fā)現(xiàn);2017年02期
7 徐浩煜;任智慧;施俊;周晗;;基于鏈?zhǔn)綏l件隨機場的中文分詞改進方法[J];計算機應(yīng)用與軟件;2016年12期
8 徐建忠;朱俊;趙瑞;張亮;李嬌嬌;;基于Web技術(shù)的航天文本分類系統(tǒng)研究與應(yīng)用[J];軍民兩用技術(shù)與產(chǎn)品;2016年23期
9 昝紅英;許鴻飛;張坤麗;穗志方;;網(wǎng)絡(luò)用語詞典的構(gòu)建及問題分析[J];中文信息學(xué)報;2016年06期
10 樓小帆;吳軍;馬嚴(yán);林昭文;;基于LDA模型的高校論壇熱點提取系統(tǒng)[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2016年S1期
【二級參考文獻】
相關(guān)期刊論文 前5條
1 楊爾弘;方瑩;劉冬明;喬羽;;漢語自動分詞和詞性標(biāo)注評測[J];中文信息學(xué)報;2006年01期
2 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期
3 孫茂松;談?wù)劃h語分詞語料庫的一致性問題[J];語言文字應(yīng)用;1999年02期
4 黃昌寧;中文信息處理中的分詞問題[J];語言文字應(yīng)用;1997年01期
5 劉開瑛;現(xiàn)代漢語自動分詞評測技術(shù)研究[J];語言文字應(yīng)用;1997年01期
【相似文獻】
相關(guān)期刊論文 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計算機系統(tǒng);2005年01期
2 程傳鵬;;一種簡單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報;2006年03期
3 張博;姜建國;萬平國;;對互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進[J];計算機應(yīng)用研究;2006年11期
4 夏新松;肖建國;;一種新的錯誤驅(qū)動學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計算機科學(xué);2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計與實現(xiàn)[J];黑龍江科技信息;2008年25期
6 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年10期
7 張培穎;;運用有向圖進行中文分詞研究[J];計算機工程與應(yīng)用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機制[J];中國科學(xué)院研究生院學(xué)報;2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計算機應(yīng)用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計算機(專業(yè)版);2009年10期
相關(guān)會議論文 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[A];全國第22屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機進行中文分詞[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細則[A];第五屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機:中文分詞研究的新思維[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
8 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
10 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
相關(guān)重要報紙文章 前2條
1 本報記者 張彤;讓計算機說中國話[N];網(wǎng)絡(luò)世界;2004年
2 清華大學(xué)IT可用性實驗室;2005中文搜索引擎質(zhì)量對比[N];計算機世界;2005年
相關(guān)博士學(xué)位論文 前4條
1 奚寧;統(tǒng)計機器翻譯中的中文分詞策略研究[D];南京大學(xué);2013年
2 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實現(xiàn)[D];北京工業(yè)大學(xué);2013年
3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
4 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 顧輝;基于中文分詞的購物中心微信平臺購物導(dǎo)航的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2015年
2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 杜麗萍;基于互聯(lián)網(wǎng)海量語料的新詞發(fā)現(xiàn)研究及中文分詞系統(tǒng)改進[D];西安郵電大學(xué);2015年
4 周祺;基于統(tǒng)計與詞典相結(jié)合的中文分詞的研究與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
5 梁喜濤;基于主動學(xué)習(xí)的中文分詞方法研究[D];南京郵電大學(xué);2015年
6 楊淦;基于條件隨機場模型的中文分詞系統(tǒng)研究與實現(xiàn)[D];重慶大學(xué);2015年
7 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評論過濾系統(tǒng)的研究與實現(xiàn)[D];東南大學(xué);2015年
8 呂先超;視障漢語轉(zhuǎn)換軟件SunBraille的設(shè)計實現(xiàn)[D];蘭州大學(xué);2016年
9 黃積楊;基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D];南京大學(xué);2016年
10 梁科;面向中醫(yī)醫(yī)案的數(shù)據(jù)挖掘技術(shù)研究及應(yīng)用[D];山東大學(xué);2016年
,本文編號:1503330
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1503330.html