基于雙哈希詞典機制中文分詞的研究
本文關(guān)鍵詞:基于雙哈希詞典機制中文分詞的研究
【摘要】:漢語詞典機制很大程度上影響中文分詞的效率。為了提高現(xiàn)有基于詞典的分詞機制的查詢效率,在雙哈希詞典機制和整詞二分法相結(jié)合的基礎(chǔ)上提出了一種有效的中文分詞詞典機制——雙哈希編碼分詞詞典機制。首字采用散列表保存,剩余字符逐個拼接計算其編碼后放入余詞散列表中,并加入狀態(tài)值來減少匹配次數(shù)。實驗結(jié)果表明該分詞機制節(jié)省了內(nèi)存空間和提高了匹配速度,方便詞典更新與維護。
【作者單位】: 江蘇科技大學計算機科學與工程學院;
【關(guān)鍵詞】: 中文分詞 詞典機制 雙哈希
【分類號】:TP391.1
【正文快照】: 0引言漢語自動分詞的基本算法主要分為兩大類:基于詞典的分詞方法和基于頻率統(tǒng)計的分詞方法[1];谠~典分詞是通過匹配已存在的中文詞典進行語句切分,此方法包括3種基本算法:正向最大匹配法、逆向最大匹配法和全切分法。無論何種算法都是以中文詞典為基礎(chǔ),詞典的查詢速度直
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語境的中文分詞方法研究[J];小型微型計算機系統(tǒng);2005年01期
2 程傳鵬;;一種簡單高效的中文分詞方法[J];鄭州輕工業(yè)學院學報;2006年03期
3 張博;姜建國;萬平國;;對互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進[J];計算機應(yīng)用研究;2006年11期
4 夏新松;肖建國;;一種新的錯誤驅(qū)動學習方法在中文分詞中的應(yīng)用[J];計算機科學;2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計與實現(xiàn)[J];黑龍江科技信息;2008年25期
6 許高建;胡學鋼;路遙;王慶人;;一種改進的中文分詞歧義消除算法研究[J];合肥工業(yè)大學學報(自然科學版);2008年10期
7 張培穎;;運用有向圖進行中文分詞研究[J];計算機工程與應(yīng)用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機制[J];中國科學院研究生院學報;2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計算機應(yīng)用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計算機(專業(yè)版);2009年10期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計[A];全國第22屆計算機技術(shù)與應(yīng)用學術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學術(shù)會議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機進行中文分詞[A];全國第八屆計算語言學聯(lián)合學術(shù)會議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細則[A];第五屆全國語言文字應(yīng)用學術(shù)研討會論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實例的中文分詞研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機:中文分詞研究的新思維[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
8 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
9 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
10 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個性化后處理設(shè)計[A];第三屆學生計算語言學研討會論文集[C];2006年
中國博士學位論文全文數(shù)據(jù)庫 前4條
1 奚寧;統(tǒng)計機器翻譯中的中文分詞策略研究[D];南京大學;2013年
2 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實現(xiàn)[D];北京工業(yè)大學;2013年
3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學;2012年
4 李志國;面向分布式文本知識管理的中文分詞與文本分類研究[D];重慶大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評論過濾系統(tǒng)的研究與實現(xiàn)[D];東南大學;2015年
2 呂先超;視障漢語轉(zhuǎn)換軟件SunBraille的設(shè)計實現(xiàn)[D];蘭州大學;2016年
3 黃積楊;基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D];南京大學;2016年
4 王荔;統(tǒng)計全切分中文分詞系統(tǒng)的研究與實現(xiàn)[D];西安電子科技大學;2009年
5 黃翼彪;開源中文分詞器的比較研究[D];鄭州大學;2013年
6 許華婷;基于Active Learning的中文分詞領(lǐng)域自適應(yīng)方法的研究[D];北京交通大學;2015年
7 周祺;基于統(tǒng)計與詞典相結(jié)合的中文分詞的研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年
8 曹衛(wèi)峰;中文分詞關(guān)鍵技術(shù)研究[D];南京理工大學;2009年
9 許順;中文分詞規(guī)范可計算化的研究與實現(xiàn)[D];蘇州大學;2006年
10 魏博誠;中文分詞交集型歧義處理研究[D];安徽大學;2011年
,本文編號:911178
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/911178.html