基于Lucene的地名數(shù)據(jù)庫(kù)快速檢索系統(tǒng)
本文關(guān)鍵詞: Lucene 地名 全文檢索 數(shù)據(jù)庫(kù) 中文分詞 相關(guān)度排序 出處:《計(jì)算機(jī)應(yīng)用研究》2017年06期 論文類型:期刊論文
【摘要】:針對(duì)傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)海量地名數(shù)據(jù)檢索效率低下的問(wèn)題,提出了一種盤古分詞和Lucene全文檢索相結(jié)合的地名數(shù)據(jù)庫(kù)快速檢索方法。首先,設(shè)計(jì)了一種地名數(shù)據(jù)表結(jié)構(gòu),比較了幾種常用開(kāi)源分詞器的中文分詞性能,并選用性能優(yōu)異的盤古中文分詞器,通過(guò)擴(kuò)展其詞典來(lái)實(shí)現(xiàn)中文地名的有效分詞。其次,利用內(nèi)存索引和多線程并行處理技術(shù)提高Lucene創(chuàng)建倒排索引效率,并依據(jù)地名類別和顯示優(yōu)先級(jí)屬性優(yōu)化了檢索結(jié)果相關(guān)度排序策略。最后,開(kāi)發(fā)了一套具有快速搜索和地圖定位展示的Web地名檢索系統(tǒng),使用500萬(wàn)條真實(shí)地名數(shù)據(jù)測(cè)試了其檢索性能,查詢平均耗時(shí)不到1s,比MySQL數(shù)據(jù)庫(kù)模糊檢索效率提高了15倍,匹配結(jié)果也更加準(zhǔn)確,能夠提供高效靈活的海量地名公共檢索服務(wù)。
[Abstract]:In order to solve the problem of inefficient retrieval of mass geographical names data in traditional relational database, this paper proposes a rapid retrieval method of geographical names database combining Pangu participle and Lucene full-text retrieval. Firstly, a toponymic data table structure is designed. This paper compares the Chinese word partitioning performance of several common open source word partitioning devices, and selects the Pangea Chinese word particifier with excellent performance to realize the effective word segmentation of Chinese place names by expanding its dictionary. Secondly, Memory index and multithread parallel processing technology are used to improve the efficiency of creating inverted index in Lucene, and according to the attribute of place name category and display priority, the ranking strategy of relevance degree of retrieval results is optimized. Finally, A Web toponymic retrieval system with fast search and map location display is developed. Its retrieval performance is tested with 5 million real toponymic data. The average query time is less than 1 s, which is 15 times higher than the fuzzy retrieval efficiency of MySQL database. The matching results are also more accurate and can provide efficient and flexible public retrieval services for mass geographical names.
【作者單位】: 華中師范大學(xué)國(guó)家文化產(chǎn)業(yè)研究中心;
【基金】:國(guó)家科技支撐計(jì)劃資助項(xiàng)目(2012BAH83F00)
【分類號(hào)】:TP311.13;TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 任樹(shù)懷;;LUCENE搜索算法剖析及優(yōu)化研究[J];圖書(shū)館雜志;2014年12期
2 陳德權(quán);;GIS地名搜索系統(tǒng)的關(guān)鍵技術(shù)設(shè)計(jì)與實(shí)現(xiàn)[J];測(cè)繪與空間地理信息;2013年08期
3 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計(jì)算機(jī)工程;2012年22期
4 李戴維;李寧;;基于Solr的分布式全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2012年11期
5 張梅山;鄧知龍;車萬(wàn)翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J];中文信息學(xué)報(bào);2012年02期
6 李敏;黃凱;;一個(gè)多線程全文檢索系統(tǒng)的構(gòu)建[J];長(zhǎng)江大學(xué)學(xué)報(bào)(自然科學(xué)版)理工卷;2010年03期
7 劉海珍;姬煒;李志剛;王建春;;國(guó)家地名數(shù)據(jù)庫(kù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];中國(guó)地名;2010年09期
8 鄭榕增;林世平;;基于Lucene的中文倒排索引技術(shù)的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2010年03期
9 宋彥;蔡?hào)|風(fēng);張桂平;趙海;;一種基于字詞聯(lián)合解碼的中文分詞方法[J];軟件學(xué)報(bào);2009年09期
10 吳青;夏紅霞;趙廣輝;劉春燕;;基于Lucene全文檢索引擎的應(yīng)用與改進(jìn)[J];武漢理工大學(xué)學(xué)報(bào);2008年07期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 許宇華;黃倩云;;統(tǒng)一智能搜索處理技術(shù)的研究與應(yīng)用[J];自動(dòng)化與儀器儀表;2017年05期
2 侯天峰;陸亞祥;;一種全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J];微型電腦應(yīng)用;2017年05期
3 蔣萬(wàn)偉;劉娟;;基于條件隨機(jī)場(chǎng)的詞結(jié)構(gòu)分析方法[J];武漢大學(xué)學(xué)報(bào)(理學(xué)版);2017年03期
4 陳亞?wèn)|;洪宇;王瀟斌;楊雪蓉;姚建民;朱巧明;;融合多模型與高置信度詞典的事件線索檢測(cè)[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2017年03期
5 李全;林松;田俊;劉興紅;;面向MOOC的垂直搜索引擎[J];計(jì)算機(jī)與現(xiàn)代化;2017年04期
6 印奇;李青;黃鵬;;基于Solr的飛機(jī)故障異構(gòu)信息檢索系統(tǒng)設(shè)計(jì)[J];航空科學(xué)技術(shù);2017年04期
7 陳楊華;張少林;;圖像自相關(guān)特征識(shí)別的算法改進(jìn)[J];浙江科技學(xué)院學(xué)報(bào);2017年01期
8 李聰穎;王瑞剛;于金良;;大數(shù)據(jù)分布式全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與數(shù)字工程;2016年12期
9 李愛(ài)勤;;多級(jí)索引驅(qū)動(dòng)的地名信息檢索方法[J];測(cè)繪科學(xué);2017年04期
10 余遵成;;近十年國(guó)內(nèi)索引方法與技術(shù)研究計(jì)量分析[J];圖書(shū)情報(bào)論壇;2016年05期
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 白培發(fā);王成良;徐玲;;一種融合詞語(yǔ)位置特征的Lucene相似度評(píng)分算法[J];計(jì)算機(jī)工程與應(yīng)用;2014年02期
2 竇天芳;姜愛(ài)蓉;;資源發(fā)現(xiàn)系統(tǒng)功能分析及應(yīng)用前景[J];圖書(shū)情報(bào)工作;2012年07期
3 夏蘭芳;毛煒青;郭功舉;;上海城市地理編碼系統(tǒng)應(yīng)用與研究[J];測(cè)繪通報(bào);2012年01期
4 錢敏;顧國(guó)強(qiáng);魯明;;用于地址(地理位置)匹配的關(guān)鍵路徑法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年01期
5 聞?dòng)癖?賈時(shí)銀;鄧世昆;李遠(yuǎn)方;;一種改進(jìn)的最大匹配中文分詞算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年10期
6 黃承慧;印鑒;陸寄遠(yuǎn);;一種改進(jìn)的Lucene語(yǔ)義相似度檢索算法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期
7 楊曉軍;王一莉;;一種GIS的中文分詞算法研究[J];微電子學(xué)與計(jì)算機(jī);2010年07期
8 莊新妍;;計(jì)算機(jī)中文分詞技術(shù)的應(yīng)用[J];呼倫貝爾學(xué)院學(xué)報(bào);2010年03期
9 王歡;孫瑞志;;基于領(lǐng)域本體和Lucene的語(yǔ)義檢索系統(tǒng)研究[J];計(jì)算機(jī)應(yīng)用;2010年06期
10 譚文堂;賀明科;李阜;;基于Lucene.Net的分布式全文檢索系統(tǒng)[J];計(jì)算機(jī)應(yīng)用與軟件;2009年09期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張茂元,盧正鼎,鄒春燕;一種基于語(yǔ)境的中文分詞方法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年01期
2 程傳鵬;;一種簡(jiǎn)單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào);2006年03期
3 張博;姜建國(guó);萬(wàn)平國(guó);;對(duì)互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn)[J];計(jì)算機(jī)應(yīng)用研究;2006年11期
4 夏新松;肖建國(guó);;一種新的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2006年03期
5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J];黑龍江科技信息;2008年25期
6 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期
7 張培穎;;運(yùn)用有向圖進(jìn)行中文分詞研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期
8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機(jī)制[J];中國(guó)科學(xué)院研究生院學(xué)報(bào);2009年05期
9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計(jì)算機(jī)應(yīng)用研究;2009年09期
10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年10期
相關(guān)會(huì)議論文 前10條
1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國(guó)第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國(guó)第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機(jī)進(jìn)行中文分詞[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國(guó)語(yǔ)言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];2007年
6 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
8 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
9 李壽山;黃居仁;;基于詞邊界分類的中文分詞方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
10 張梅山;鄧知龍;車萬(wàn)翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)重要報(bào)紙文章 前2條
1 本報(bào)記者 張彤;讓計(jì)算機(jī)說(shuō)中國(guó)話[N];網(wǎng)絡(luò)世界;2004年
2 清華大學(xué)IT可用性實(shí)驗(yàn)室;2005中文搜索引擎質(zhì)量對(duì)比[N];計(jì)算機(jī)世界;2005年
相關(guān)博士學(xué)位論文 前4條
1 奚寧;統(tǒng)計(jì)機(jī)器翻譯中的中文分詞策略研究[D];南京大學(xué);2013年
2 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2013年
3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年
4 李志國(guó);面向分布式文本知識(shí)管理的中文分詞與文本分類研究[D];重慶大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 顧輝;基于中文分詞的購(gòu)物中心微信平臺(tái)購(gòu)物導(dǎo)航的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 杜麗萍;基于互聯(lián)網(wǎng)海量語(yǔ)料的新詞發(fā)現(xiàn)研究及中文分詞系統(tǒng)改進(jìn)[D];西安郵電大學(xué);2015年
4 周祺;基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
5 梁喜濤;基于主動(dòng)學(xué)習(xí)的中文分詞方法研究[D];南京郵電大學(xué);2015年
6 楊淦;基于條件隨機(jī)場(chǎng)模型的中文分詞系統(tǒng)研究與實(shí)現(xiàn)[D];重慶大學(xué);2015年
7 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評(píng)論過(guò)濾系統(tǒng)的研究與實(shí)現(xiàn)[D];東南大學(xué);2015年
8 呂先超;視障漢語(yǔ)轉(zhuǎn)換軟件SunBraille的設(shè)計(jì)實(shí)現(xiàn)[D];蘭州大學(xué);2016年
9 黃積楊;基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D];南京大學(xué);2016年
10 梁科;面向中醫(yī)醫(yī)案的數(shù)據(jù)挖掘技術(shù)研究及應(yīng)用[D];山東大學(xué);2016年
,本文編號(hào):1533165
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1533165.html