基于多重索引模型的大規(guī)模詞典近似匹配算法
本文選題:模式匹配 + 近似匹配; 參考:《計(jì)算機(jī)研究與發(fā)展》2008年10期
【摘要】:編輯器的拼寫校正、搜索引擎的查詢糾正、光學(xué)字符識別的結(jié)果檢查等領(lǐng)域都用到詞典近似匹配算法.傳統(tǒng)單索引模式很難在高性能的前提下保證高召回率.詞典越大問題越嚴(yán)重.提出了大規(guī)模詞典近似匹配的多重索引模型,首先將背景詞典根據(jù)單詞長度劃分為若干子詞典,對各子詞典按照一定策略建立unigram,bigram,trigram,quadgram中的一種或若干種索引,當(dāng)查找用戶模式P的近似匹配時,根據(jù)模式P檢索特定N-gram索引鏈,從而得到候選近似匹配集合C,對C中每一個單詞W,計(jì)算P與W的編輯距離即可輸出P的所有最終匹配結(jié)果R.實(shí)驗(yàn)表明,基于多重索引模型的詞典近似匹配算法能夠大幅度減少候選近似匹配結(jié)果的數(shù)量,從而提高詞典近似匹配的速度.
[Abstract]:Dictionary approximate matching algorithm is used in spelling correction of editor, query correction of search engine and result checking of optical character recognition.It is difficult for traditional single index mode to guarantee high recall rate on the premise of high performance.The bigger the dictionary, the more serious the problem.A multi-index model for approximate matching of large-scale dictionaries is proposed. Firstly, the background dictionaries are divided into several sub-dictionaries according to the word length, and one or more indexes in unigram-bigram-trigram-quadgram are established for each sub-dictionary according to a certain strategy.When the approximate matching of user pattern P is searched, a specific N-gram index chain is retrieved according to pattern P, and the candidate approximate matching set C is obtained. For each word in C, the editing distance between P and W can be calculated and all final matching results of P can be outputted.The experimental results show that the dictionary approximate matching algorithm based on multi-index model can greatly reduce the number of candidate approximate matching results and improve the speed of dictionary approximate matching.
【作者單位】: 中國科學(xué)院計(jì)算技術(shù)研究所;北京市計(jì)算中心;
【基金】:國家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃基金項(xiàng)目(2004CB318109,2007CB311100) 國家“八六三”高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2006AA010105,2007AA01Z416)~~
【分類號】:TP301.6
【共引文獻(xiàn)】
相關(guān)期刊論文 前1條
1 周之誠;;用戶查詢意圖的獲取與采訪質(zhì)量優(yōu)化[J];圖書館學(xué)研究;2009年12期
相關(guān)會議論文 前1條
1 龔才春;黃玉蘭;許洪波;白碩;;基于多重索引模型的大規(guī)模詞典近似匹配算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 高培煥,張大智;基于二維模式匹配的圖像檢索快速算法[J];遼寧師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年02期
2 廖俊必,袁中凡,徐_g;圖像匹配中噪聲分析和預(yù)處理(英文)[J];光電工程;2002年06期
3 李德華;波形模式匹配的一種加速算法[J];信息與控制;1982年04期
4 張曉華,陳宏鈞,余四清,王卓軍;一種新型模糊控制器在加熱爐上的應(yīng)用[J];冶金自動化;1991年05期
5 唐朝京,吳自強(qiáng),王躍科,張南,周代英,王成友;一種基于改進(jìn)的SEVQ匹配算法的漢語全音節(jié)語音識別系統(tǒng)[J];國防科技大學(xué)學(xué)報(bào);1997年03期
6 應(yīng)向榮;入侵檢測(IDS)技術(shù)的發(fā)展[J];信息技術(shù)與標(biāo)準(zhǔn)化;2002年12期
7 馬志柔;葉屹;;一種有效的多關(guān)鍵詞詞頻統(tǒng)計(jì)方法[J];計(jì)算機(jī)工程;2006年10期
8 黃健斌;姬紅兵;孫鶴立;;多源Web對象與關(guān)系數(shù)據(jù)的集成[J];西安電子科技大學(xué)學(xué)報(bào);2007年01期
9 柳景超;周立兵;;一個改進(jìn)的入侵檢測系統(tǒng)模型[J];計(jì)算機(jī)與數(shù)字工程;2007年01期
10 李昌清;李艷霞;李勝利;王劍;;基于動態(tài)異構(gòu)的Web信息集成網(wǎng)頁分析方法[J];計(jì)算機(jī)應(yīng)用研究;2007年12期
相關(guān)會議論文 前10條
1 龔才春;黃玉蘭;許洪波;白碩;;基于多重索引模型的大規(guī)模詞典近似匹配算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
2 錢穎;聶俊嵐;劉國華;郜時紅;;基于全集的復(fù)雜模式匹配[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2006年
3 孫江明;李通化;;基于模式匹配的蛋白質(zhì)結(jié)構(gòu)形狀預(yù)測[A];第十一屆全國計(jì)算(機(jī))化學(xué)學(xué)術(shù)會議論文摘要集[C];2011年
4 謝麗聰;;基于Matchmaking方法的模式匹配[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2002年
5 譚茂金;張庚驥;石耀霖;;陣列電法測井的垂直模式匹配理論研究[A];中國地球物理學(xué)會第二十四屆年會論文集[C];2008年
6 陳建云;王躍科;劉輝;;基于相關(guān)分析和模式匹配的多普勒頻率測量方法[A];第三次全國會員代表大會暨學(xué)術(shù)會議論文集[C];2002年
7 胡鳳國;;一個簡單人機(jī)對話系統(tǒng)的實(shí)現(xiàn)方法[A];第一屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2002年
8 朱艷;許家s,
本文編號:1771992
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1771992.html