基于N-gram模型的中文分詞前k優(yōu)算法
本文關(guān)鍵詞:基于N-gram模型的中文分詞前k優(yōu)算法
更多相關(guān)文章: 中文輸入法 N-gram模型 k優(yōu)路徑 A*算法
【摘要】:本文首先從中文輸入法應(yīng)用的角度出發(fā),在闡述了N-gram模型的基礎(chǔ)上對中文輸入法的分詞進(jìn)行了詳細(xì)的剖析,進(jìn)一步根據(jù)訓(xùn)練數(shù)據(jù)的稀疏問題,使用Back-off模型進(jìn)行數(shù)據(jù)的平滑處理。針對系統(tǒng)詞庫數(shù)量受限的問題,在構(gòu)建詞圖的前提下,使用基于A*的算法求解前k優(yōu)路徑。最后實(shí)驗(yàn)結(jié)果表明,本文所使用的基于A*的算法與改進(jìn)Dijkstra算法、基于DP的算法等常用的求前k優(yōu)路徑的算法相比,具有較高的效率和準(zhǔn)確率,為中文分詞及求取k-best算法的研究開拓了新的思路。
【作者單位】: 東北林業(yè)大學(xué)信息與計(jì)算機(jī)工程學(xué)院;
【關(guān)鍵詞】: 中文輸入法 N-gram模型 k優(yōu)路徑 A*算法
【基金】:中央高;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2572015DY07) 黑龍江省自然科學(xué)基金(F201347) 哈爾濱市科技創(chuàng)新人才專項(xiàng)資金(2013RFQXJ100) 國家自然基金(61300098) 教育部大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目(201610225126)
【分類號】:TP391.14
【正文快照】: 0引言中文輸入法(Chinese input method)是指為了將漢字輸入計(jì)算機(jī)或手機(jī)等電子設(shè)備而采用的編碼方法,是中文信息處理的重要技術(shù)。時(shí)下的中文輸入法可分為基于音標(biāo)(Phonetic-based)和基于字形(Shape-based)兩種類型[1],本文使用的方法則屬于第一類。一個(gè)具有整句輸入功能的輸
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;手機(jī)中文輸入法評測報(bào)告[J];數(shù)字通信;2001年07期
2 西貝;不關(guān)閉中文輸入法快速輸入英文[J];電腦愛好者;2003年11期
3 ;新一代普及型中文輸入法——九方[J];電腦采購周刊;2003年02期
4 王霞;;在線中文輸入法隨叫隨到[J];電腦迷;2006年01期
5 流行語;;帶你認(rèn)識手機(jī)輸入法[J];電腦愛好者(普及版);2007年12期
6 黃德強(qiáng);丁偉;;嵌入式中文輸入法解決方案[J];科技創(chuàng)新導(dǎo)報(bào);2009年21期
7 王志軍;;QQ中自動(dòng)調(diào)用QQ輸入法[J];電腦迷;2010年19期
8 陳禾;中文系統(tǒng)和中文輸入法[J];天津科技;1994年04期
9 賀全榮;;百度中文輸入法 讓輸入更快速[J];網(wǎng)友世界;2010年Z2期
10 胡遇杰,宋軍強(qiáng),楊煜普;自定義中文輸入法的自動(dòng)安裝[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2000年12期
中國重要會議論文全文數(shù)據(jù)庫 前7條
1 麥?zhǔn)阑?;旨在中文輸入法的國際化 《華升碼》(第二版)[A];中國中文信息學(xué)會漢字編碼專業(yè)委員會第九屆年會暨學(xué)術(shù)研討會論文集[C];2011年
2 黃金富;;中文輸入法的“傻瓜”境界——《智能手機(jī)碼》簡介[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年
3 曾養(yǎng)志;曾巍;曾嶸;;最新一代中文輸入法-漢字詞語碼編碼技術(shù)[A];中國中文信息學(xué)會漢字編碼專業(yè)委員會第八屆年會、中國計(jì)算機(jī)學(xué)會中文信息技術(shù)專業(yè)委員會第六屆年會暨漢字輸入技術(shù)與應(yīng)用研討會論文集[C];2002年
4 許丹青;劉奕群;岑榮偉;馬少平;茹立云;楊磊;;基于日志分析的中文輸入法用戶行為研究[A];第五屆全國青年計(jì)算語言學(xué)研討會論文集[C];2010年
5 張瑋;孫樂;馮元勇;呂元華;;一種結(jié)合分類模型的中文輸入法[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
6 余泳;;基于XIM的簡體中文輸入法FCITX[A];中國工程物理研究院第七屆電子技術(shù)青年學(xué)術(shù)交流會論文集[C];2005年
7 吳克忠;;漢語編程技術(shù)及其新進(jìn)展[A];中文信息處理技術(shù)研討會論文集[C];2004年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 侯濤;國內(nèi)手機(jī)中文輸入法期待突破[N];中國電子報(bào);2005年
2 飛魚;快速切換常用中文輸入法[N];中國電腦教育報(bào);2003年
3 侯濤;手機(jī)中文輸入法成為用戶“關(guān)切之最”[N];通信產(chǎn)業(yè)報(bào);2005年
4 本報(bào)記者 楊谷;中文輸入法還需要發(fā)明嗎[N];光明日報(bào);2001年
5 本報(bào)記者 劉菲;中文輸入法:指尖上的競爭[N];人民日報(bào)海外版;2014年
6 ;不同手機(jī)中文輸入法大比拼[N];中國質(zhì)量報(bào);2000年
7 電腦虎;指尖流彩——中文輸入法[N];中國電腦教育報(bào);2005年
8 本報(bào)記者 韓丹;手機(jī)中文輸入法相關(guān)標(biāo)準(zhǔn)有待完善[N];經(jīng)濟(jì)參考報(bào);2008年
9 竹 文;二筆軟件火爆科博會[N];經(jīng)濟(jì)參考報(bào);2003年
10 本報(bào)記者 郭慶;全音輸入法助外國人學(xué)漢語[N];科技日報(bào);2003年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周接富;中文輸入法的商務(wù)模式創(chuàng)新[D];廈門大學(xué);2009年
2 包艷;iOS中文輸入法的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2015年
3 柴正;基于CPA的中文輸入法用戶詞庫提取技術(shù)研究與應(yīng)用[D];東北大學(xué);2014年
4 楊少華;中文輸入法若干相關(guān)問題研究[D];上海交通大學(xué);2013年
5 童學(xué)才;基于MiniGUI的嵌入式系統(tǒng)中文輸入法設(shè)計(jì)[D];武漢科技大學(xué);2007年
6 陶東成;基于Linux和XIM協(xié)議的中文輸入法服務(wù)器的實(shí)現(xiàn)及其應(yīng)用[D];蘇州大學(xué);2004年
7 秦靜;漁業(yè)船用電臺人機(jī)交互界面設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
8 王麗君;基于SCIM架構(gòu)的輸入法的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2011年
9 黃超;基于Qt的嵌入式GUI的研究與實(shí)現(xiàn)[D];吉林大學(xué);2011年
10 代賢俊;面向?qū)懽鬏o助的中文智能輸入法系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2014年
,本文編號:749037
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/749037.html