一種改進(jìn)的長詞優(yōu)先逆向最大匹配分詞消歧策略
[Abstract]:In order to improve the segmentation accuracy of the inverse maximum matching algorithm, a better disambiguation effect is obtained by using word frequency threshold and single word function. The experimental results show that the algorithm can not only follow the principle of long word preference, but also further recognize and eliminate the covering ambiguity. The improved RMM not only maintains a great advantage in speed but also improves the accuracy of word segmentation. It has some practical value in improving the accuracy of word segmentation for small and medium-sized search engines using mechanical word segmentation algorithm.
【作者單位】: 河北農(nóng)業(yè)大學(xué)信息科學(xué)與技術(shù)學(xué)院;
【基金】:河北省科學(xué)技術(shù)研究與發(fā)展計(jì)劃項(xiàng)目(07213512)
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報(bào);2008年03期
2 閆引堂,周曉強(qiáng);交集型歧義字段切分方法研究[J];情報(bào)學(xué)報(bào);2000年06期
3 丁振國;張卓;黎靖;;基于Hash結(jié)構(gòu)的逆向最大匹配分詞算法的改進(jìn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年12期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 高艷萍;于紅;尹祥貴;綦孝姬;王春永;趙志強(qiáng);;基于雙數(shù)組Trie樹的漁業(yè)領(lǐng)域分詞研究[J];安徽農(nóng)業(yè)科學(xué);2008年11期
2 于江德;王希杰;;詞位標(biāo)注漢語分詞技術(shù)詳解[J];安陽師范學(xué)院學(xué)報(bào);2010年05期
3 楊爾弘;;媒體5年詞語使用情況調(diào)查分析[J];北華大學(xué)學(xué)報(bào)(社會科學(xué)版);2011年04期
4 劉文華;康海燕;;領(lǐng)域問答系統(tǒng)生成器的研究[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年03期
5 佟欣;韓玉琢;;房產(chǎn)自動應(yīng)答系統(tǒng)的分析與設(shè)計(jì)[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年01期
6 佟欣;;自動應(yīng)答系統(tǒng)中文處理策略和算法[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年02期
7 張林曼;吳升;;地理編碼系統(tǒng)中地名地址分詞算法研究[J];測繪科學(xué);2010年02期
8 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報(bào);2008年03期
9 劉春輝;金順福;劉國華;李穎;;基于優(yōu)化最大匹配與統(tǒng)計(jì)結(jié)合的漢語分詞方法[J];燕山大學(xué)學(xué)報(bào);2009年02期
10 趙春紅;高希龍;王檸;趙威;劉國華;;一種應(yīng)用分治策略的中文分詞方法[J];燕山大學(xué)學(xué)報(bào);2009年05期
相關(guān)會議論文 前10條
1 李金;宋陽;梁洪;;語言殘障患者醫(yī)療輔助系統(tǒng)設(shè)計(jì)[A];第九屆全國信息獲取與處理學(xué)術(shù)會議論文集Ⅱ[C];2011年
2 于江德;王希杰;樊孝忠;;漢語詞法分析中上文和下文孰重孰輕[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
5 黃明初;陸旭安;潘雄偉;鐘威;;中文分詞技術(shù)在檔案智能搜索中的應(yīng)用[A];廣西計(jì)算機(jī)學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
6 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集[C];2007年
7 蘇亮;孫斌;;一種基于Lucene的Hash改進(jìn)中文分詞算法的實(shí)現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年
8 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(上冊)[C];2007年
9 李江波;周強(qiáng);陳祖舜;;漢語詞典快速查詢算法研究[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會論文集[C];2004年
10 楊超;李仁發(fā);蔣斌;;一種高效的漢語自動分詞詞典機(jī)制[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
相關(guān)博士學(xué)位論文 前10條
1 荊濤;面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D];吉林大學(xué);2011年
2 張海軍;基于大規(guī)模語料的中文新詞識別技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年
3 屠曉;英文地址圖像識別與翻譯研究[D];華東師范大學(xué);2011年
4 李智星;用于文本分類的簡明語義分析技術(shù)研究[D];重慶大學(xué);2011年
5 楊雨圖;支持雙語的協(xié)同CAPP系統(tǒng)若干關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2006年
6 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
7 秦穎;漢語詞和短語的歧義消解研究[D];北京郵電大學(xué);2008年
8 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
9 車海燕;面向中文自然語言Web文檔的自動知識抽取和知識融合[D];吉林大學(xué);2008年
10 張格偉;基于工藝知識網(wǎng)格的可重構(gòu)CAPP系統(tǒng)關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 羅義兵;領(lǐng)域文本相似度計(jì)算方法研究[D];山東科技大學(xué);2010年
2 馮海瑛;《萬歷野獲編》分詞理論與實(shí)踐[D];廣西師范學(xué)院;2010年
3 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學(xué);2010年
4 耿倩;基于文本相似度計(jì)算的文本聚類算法研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
5 劉金寧;詞性標(biāo)注體系對中文分詞的影響[D];大連理工大學(xué);2010年
6 馮晶晶;面向軟件測試領(lǐng)域的自動問答系統(tǒng)[D];河南理工大學(xué);2010年
7 梁楨;基于尾字詞典的逆向回溯中文分詞技術(shù)研究[D];武漢工業(yè)學(xué)院;2010年
8 蘇保君;在線組合分類器應(yīng)用于大規(guī)模垃圾郵件過濾的研究[D];浙江大學(xué);2010年
9 陳磊;用例圖到順序圖轉(zhuǎn)換的研究[D];西安電子科技大學(xué);2009年
10 馬靜;基于web的數(shù)字化資源全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期
2 馮素琴;陳惠明;;一種自組織的漢語組合型歧義消歧方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年03期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 田占霄;韓憲忠;王克儉;;一種改進(jìn)的長詞優(yōu)先逆向最大匹配分詞消歧策略[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2009年04期
2 張恒;楊文昭;屈景輝;盧虹冰;張亮;趙飛;;基于詞典和詞頻的中文分詞方法[J];微計(jì)算機(jī)信息;2008年03期
3 徐吉;朱蘭娟;;用于網(wǎng)絡(luò)搜索引擎的中文分詞消岐算法[J];微型電腦應(yīng)用;2011年04期
4 馬志強(qiáng);蘇依拉;;基于次優(yōu)查找樹的詞典機(jī)制研究[J];內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期
5 程肖;陸蓓;諶志群;;熱點(diǎn)主題詞提取方法研究[J];現(xiàn)代圖書情報(bào)技術(shù);2010年10期
6 龔偉;瞿X;李柳柏;;智能決策支持的E-mail過濾模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年04期
7 熊桂喜;李政;;基于規(guī)則和語料庫的中文姓名識別研究[J];計(jì)算機(jī)與信息技術(shù);2007年12期
8 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學(xué)院學(xué)報(bào);2008年03期
9 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期
10 黃德根;焦世斗;周惠巍;;基于子詞的雙層CRFs中文分詞[J];計(jì)算機(jī)研究與發(fā)展;2010年05期
相關(guān)會議論文 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
2 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 張梅山;鄧知龍;車萬翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 韓冬煦;常寶寶;;基于邊界熵和卡方統(tǒng)計(jì)量的多領(lǐng)域適應(yīng)性中文分詞方法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
5 彭輝;翟翔;;AutoCAD 2008自動翻譯軟件研發(fā)[A];全國冶金自動化信息網(wǎng)2010年年會論文集[C];2010年
6 張必隱;;中文雙字詞認(rèn)知中的鄰近詞頻率效果[A];第八屆全國心理學(xué)學(xué)術(shù)會議文摘選集[C];1997年
7 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
8 王屹林;朱慕華;朱靖波;;針對SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2006年
9 劉東生;尹寶生;張桂平;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
10 戴莉;周明全;武仲科;王永恒;王燕妮;周曼;;Lucene在智能答疑系統(tǒng)中的應(yīng)用研究[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 吳剛;提案數(shù)量驟增 熱詞頻現(xiàn)[N];湘聲報(bào);2010年
2 清華大學(xué)IT可用性實(shí)驗(yàn)室;2005中文搜索引擎質(zhì)量對比[N];計(jì)算機(jī)世界;2005年
3 本報(bào)記者 張彤;讓計(jì)算機(jī)說中國話[N];網(wǎng)絡(luò)世界;2004年
4 記者 吳苡婷;用技術(shù)挖出網(wǎng)絡(luò)信息中“金子”[N];上海科技報(bào);2009年
5 深圳特區(qū)報(bào)記者 梁婷;我們正進(jìn)入全民“詞時(shí)代”[N];深圳特區(qū)報(bào);2010年
6 中國科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年
7 賀俊;匯聚億萬草根智慧 奇虎發(fā)布經(jīng)驗(yàn)搜索[N];證券日報(bào);2006年
8 記者 楊朝暉;醫(yī)藥搜索:不再“眾里尋他千百度”[N];科技日報(bào);2007年
9 王翌;互聯(lián)網(wǎng)2005:個(gè)性化生存[N];計(jì)算機(jī)世界;2005年
10 王志軍;Google輸入法的六大特色功能[N];中國電腦教育報(bào);2007年
相關(guān)博士學(xué)位論文 前10條
1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
2 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
3 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
4 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年
5 楊梅;現(xiàn)代漢語合成詞構(gòu)詞研究[D];南京師范大學(xué);2006年
6 陳博;WEB文本情感分類中關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
7 李樂夫;中國公有經(jīng)濟(jì)部門人力資本回報(bào)的實(shí)證研究[D];清華大學(xué);2009年
8 任飛亮;高適應(yīng)性基于實(shí)例的機(jī)器翻譯中關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年
9 張京楣;基于統(tǒng)計(jì)方法的文本風(fēng)格分析研究[D];山東大學(xué);2012年
10 吳恩鋒;基于經(jīng)濟(jì)報(bào)道標(biāo)題語料庫的概念隱喻研究[D];浙江大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 馬忠寶;基于支持向量機(jī)的中文文本分類系統(tǒng)研究[D];武漢理工大學(xué);2006年
2 楊彥;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計(jì)分詞系統(tǒng)[D];中南大學(xué);2005年
3 戚晶;基于RSS的搜索引擎的研究與實(shí)現(xiàn)[D];吉林大學(xué);2006年
4 馬莉;基于SVM的垃圾郵件過濾的研究[D];山東大學(xué);2005年
5 王新梅;基于內(nèi)容挖掘的垃圾郵件過濾技術(shù)[D];武漢理工大學(xué);2006年
6 李培國;基于人工神經(jīng)網(wǎng)的中文垃圾郵件過濾器的設(shè)計(jì)與實(shí)現(xiàn)[D];暨南大學(xué);2007年
7 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年
8 王圓;文本內(nèi)容過濾的關(guān)鍵技術(shù)研究[D];東北師范大學(xué);2006年
9 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年
10 孟美華;桌面搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2009年
,本文編號:2266678
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2266678.html