基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進(jìn)
本文關(guān)鍵詞:基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進(jìn)
更多相關(guān)文章: 新詞識別 未登錄詞 互信息 PMI改進(jìn)算法 中文分詞
【摘要】:提出一種非監(jiān)督的新詞識別方法。該方法利用互信息(PMI)的改進(jìn)算法——PMIk算法與少量基本規(guī)則相結(jié)合,從大規(guī)模語料中自動識別2~n元網(wǎng)絡(luò)新詞(n為發(fā)現(xiàn)的新詞最大長度,可以根據(jù)需要指定);257MB的百度貼吧語料實(shí)驗(yàn),當(dāng)PMIk方法的參數(shù)為10時(shí),結(jié)果精度達(dá)到97.39%,比PMI方法提高28.79%,實(shí)驗(yàn)結(jié)果表明,該新詞發(fā)現(xiàn)方法能夠有效地從大規(guī)模網(wǎng)絡(luò)語料中發(fā)現(xiàn)新詞。將新詞發(fā)現(xiàn)結(jié)果編纂成用戶詞典,加載到漢語詞法分析系統(tǒng)ICTCLAS中,基于10 KB的百度貼吧語料實(shí)驗(yàn),比加載用戶詞典前的分詞結(jié)果準(zhǔn)確率、召回率和F值分別提高7.93%,3.73%和5.91%。實(shí)驗(yàn)表明,通過進(jìn)行新詞發(fā)現(xiàn)能有效改善分詞系統(tǒng)對網(wǎng)絡(luò)文本的處理效果。
【作者單位】: 西安郵電大學(xué);
【基金】:國家自然科學(xué)基金(61373116) 陜西省普通高等學(xué)校重點(diǎn)學(xué)科專項(xiàng)資金(112-1602) 西安郵電大學(xué)研究生創(chuàng)新基金(ZL2013-31)資助
【分類號】:TP391.1
【正文快照】: 隨著信息時(shí)代的發(fā)展與科學(xué)技術(shù)的進(jìn)步,大量網(wǎng)絡(luò)新詞不斷涌現(xiàn),使得分詞結(jié)果中存在大量的“散串”,嚴(yán)重影響分詞系統(tǒng)處理網(wǎng)絡(luò)文本的效果,新詞識別已經(jīng)成為提高分詞效果的瓶頸[1]。對于網(wǎng)絡(luò)上出現(xiàn)的新詞匯,例如近日在網(wǎng)上熱傳的“APEC藍(lán)”、“Duang”、“一帶一路”、“單腎貴圖1
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 張海軍;史樹敏;朱朝勇;黃河燕;;中文新詞識別技術(shù)綜述[J];計(jì)算機(jī)科學(xué);2010年03期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李亞松;王玉龍;;一種新詞自動提取方法[J];電信工程技術(shù)與標(biāo)準(zhǔn)化;2014年12期
2 廖祥文;林自芳;陳水利;;基于詞內(nèi)部模式的中文新詞識別研究[J];集美大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年06期
3 安俊秀;;基于服務(wù)器集群的云檢索系統(tǒng)的研究與示范[J];計(jì)算機(jī)科學(xué);2010年07期
4 張海軍;欒靜;李勇;齊向偉;;基于統(tǒng)計(jì)學(xué)習(xí)框架的中文新詞檢測方法[J];計(jì)算機(jī)科學(xué);2012年02期
5 楊錦鋒;呂新波;關(guān)毅;周春波;;基于購物網(wǎng)站用戶搜索日志的商品詞發(fā)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
6 張瑞霞;楊國增;吳慧欣;;基于《知網(wǎng)》的漢語未登錄詞語義相似度計(jì)算[J];中文信息學(xué)報(bào);2012年01期
7 張海軍;劉戰(zhàn)東;木妮娜;;基于逐層剪枝的中文高頻重復(fù)模式快速提取算法[J];計(jì)算機(jī)科學(xué);2014年05期
8 王倩倩;范通讓;;漢語中新詞識別方法研究[J];河北省科學(xué)院學(xué)報(bào);2014年02期
9 張海軍;李勇;閆琪琪;;一種基于海量語料的網(wǎng)絡(luò)熱點(diǎn)新詞識別方法[J];計(jì)算機(jī)工程與應(yīng)用;2015年05期
10 付麗娜;肖和;姬東鴻;;基于OC-SVM的新情感詞識別[J];計(jì)算機(jī)應(yīng)用研究;2015年07期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 王芳;基于本體的廣域農(nóng)業(yè)信息服務(wù)系統(tǒng)關(guān)鍵技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2012年
2 徐坤;基于本體的科學(xué)數(shù)據(jù)監(jiān)護(hù)平臺研究[D];吉林大學(xué);2014年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 羅智勇;宋柔;;基于多特征的自適應(yīng)新詞識別[J];北京工業(yè)大學(xué)學(xué)報(bào);2007年07期
2 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語料庫的新詞檢測[J];計(jì)算機(jī)研究與發(fā)展;2006年05期
3 周正宇,李宗葛;一種新的基于統(tǒng)計(jì)的詞典擴(kuò)展方法[J];中文信息學(xué)報(bào);2001年05期
4 鄒綱,劉洋,劉群,孟遙,于浩,西野文人,亢世勇;面向Internet的中文新詞語檢測[J];中文信息學(xué)報(bào);2004年06期
5 劉華;;一種快速獲取領(lǐng)域新詞語的新方法[J];中文信息學(xué)報(bào);2006年05期
6 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報(bào);2007年03期
7 劉挺,吳巖,王開鑄;串頻統(tǒng)計(jì)和詞形匹配相結(jié)合的漢語自動分詞系統(tǒng)[J];中文信息學(xué)報(bào);1998年01期
8 曹勇剛;曹羽中;金茂忠;劉超;;面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J];軟件學(xué)報(bào);2006年03期
9 鄭家恒,李文花;基于構(gòu)詞法的網(wǎng)絡(luò)新詞自動識別初探[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年02期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年01期
2 程傳鵬;;一種簡單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào);2006年03期
3 張博;姜建國;萬平國;;對互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn)[J];計(jì)算機(jī)應(yīng)用研究;2006年11期
4 夏新松;肖建國;;一種新的錯誤驅(qū)動學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J];黑龍江科技信息;2008年25期
6 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期
7 張培穎;;運(yùn)用有向圖進(jìn)行中文分詞研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機(jī)制[J];中國科學(xué)院研究生院學(xué)報(bào);2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計(jì)算機(jī)應(yīng)用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年10期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機(jī)進(jìn)行中文分詞[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
10 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國重要報(bào)紙全文數(shù)據(jù)庫 前2條
1 本報(bào)記者 張彤;讓計(jì)算機(jī)說中國話[N];網(wǎng)絡(luò)世界;2004年
2 清華大學(xué)IT可用性實(shí)驗(yàn)室;2005中文搜索引擎質(zhì)量對比[N];計(jì)算機(jī)世界;2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2013年
2 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
3 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 顧輝;基于中文分詞的購物中心微信平臺購物導(dǎo)航的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 王荔;統(tǒng)計(jì)全切分中文分詞系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
4 黃翼彪;開源中文分詞器的比較研究[D];鄭州大學(xué);2013年
5 許華婷;基于Active Learning的中文分詞領(lǐng)域自適應(yīng)方法的研究[D];北京交通大學(xué);2015年
6 曹衛(wèi)峰;中文分詞關(guān)鍵技術(shù)研究[D];南京理工大學(xué);2009年
7 許順;中文分詞規(guī)范可計(jì)算化的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2006年
8 魏博誠;中文分詞交集型歧義處理研究[D];安徽大學(xué);2011年
9 代聰;基于英漢平行語料的中文分詞研究與應(yīng)用[D];大連理工大學(xué);2012年
10 王為磊;基于多目標(biāo)優(yōu)化的中文分詞模型的研究[D];蘇州大學(xué);2008年
,本文編號:1287086
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1287086.html