基于多級Hash分詞的全文搜索引擎的研究
本文關(guān)鍵詞:基于多級Hash分詞的全文搜索引擎的研究,由筆耕文化傳播整理發(fā)布。
《北京郵電大學(xué)》 2008年
基于多級Hash分詞的全文搜索引擎的研究
蘇亮
【摘要】: 中文分詞作為現(xiàn)代搜索引擎技術(shù)的重要基礎(chǔ),一直以來是人們研究的熱點(diǎn)和難點(diǎn)。Lucene是一個成熟、開源的軟件項(xiàng)目,是一個高性能的信息檢索和查詢工具,通過對Lucene源代碼的分析和編程實(shí)驗(yàn),讓我們領(lǐng)略到了Lucene的精髓。由于其提供了一套簡單卻十分強(qiáng)大的核心API,使得我們可以快速得將它集成到我們自己應(yīng)用程序中。但是,Lucene的核心包和擴(kuò)展包對中文分詞采取類似英文的機(jī)械式切分方法。然而由于中英文之間在形式上存在著巨大的差異,這種切分方法的分詞效果是非常低效的。本文在通過對Lucene分詞的結(jié)構(gòu)的分析,設(shè)計(jì)出了一種基于Hash的Lucene的高效機(jī)械分詞方法。 目前信息處理用的詞典機(jī)制主要有整詞二分、TRIE索引樹、逐字二分等幾種方法,其中TRIE索引樹和逐字二分機(jī)制查詢效率較高。這幾種詞典機(jī)制都是以排序的線性表來提高查詢效率,數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜且查詢速度較慢。本文主要工作是分析了幾種常用詞典構(gòu)造方法的優(yōu)缺點(diǎn),針對分詞中特定的查詢條件,設(shè)計(jì)并實(shí)現(xiàn)了基于Hash的分詞詞典,同時分析了基于Hash的分詞詞典的性能。 本文在此研究基礎(chǔ)上開發(fā)出了個人桌面搜索引擎系統(tǒng),索引和搜索部分利用Lucene引擎架構(gòu),實(shí)現(xiàn)了比Lucene自帶的中文分詞更有效的中文分詞。文章最后在系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)的基礎(chǔ)上,對中文分詞進(jìn)行了速度和準(zhǔn)確率的測試,并在此基礎(chǔ)上提出了今后努力的方向。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2008
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉兆偉;黃永峰;;面向主題搜索引擎的實(shí)現(xiàn)與優(yōu)化[J];數(shù)據(jù)通信;2011年04期
2 周拴龍;;Lucene.net中文分詞算法分析[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2011年03期
3 付光;;面向招聘信息主題搜索引擎的研究與設(shè)計(jì)[J];廣西教育;2011年18期
4 ;李彥宏論搜索引擎三個定律[J];新電子;2001年02期
5 相春雷;;2009年中國搜索引擎市場趨勢分析[J];軟件世界;2010年02期
6 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計(jì)算機(jī)與網(wǎng)絡(luò);2010年Z1期
7 馬玥;;王小川:絕境之外[J];中國經(jīng)濟(jì)和信息化;2011年12期
8 魏蕾如;;基于搜索引擎的網(wǎng)絡(luò)中文信息檢索工具評價[J];數(shù)字技術(shù)與應(yīng)用;2011年06期
9 ;創(chuàng)新工業(yè)搜索引擎[J];中國制造業(yè)信息化;2011年12期
10 鄒燕飛;于成尊;趙亮;;基于Lucene的文本搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2011年09期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學(xué)術(shù)交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
5 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集[C];2010年
6 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會2008年年會論文集[C];2008年
7 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計(jì)算學(xué)術(shù)會議論文集[C];2005年
8 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2005年
9 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2010年
10 陳援非;何哲;朱珍民;;基于普適計(jì)算的個性化搜索技術(shù)[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國普適計(jì)算學(xué)術(shù)會議(PCC'06)論文集[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 清華大學(xué)IT可用性實(shí)驗(yàn)室;[N];計(jì)算機(jī)世界;2005年
2 姜蕊;[N];中國商報(bào);2006年
3 主持人 陳建棟;[N];光明日報(bào);2005年
4 本報(bào)記者 陳建棟;[N];光明日報(bào);2005年
5 曾正樂;[N];經(jīng)濟(jì)日報(bào);2005年
6 本報(bào)記者 秦海波;[N];經(jīng)濟(jì)日報(bào);2005年
7 FN記者 柳立;[N];金融時報(bào);2005年
8 閆輝;[N];計(jì)算機(jī)世界;2005年
9 本報(bào)記者 李劍;[N];通信信息報(bào);2005年
10 華夏;[N];江蘇科技報(bào);2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
7 王镠璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年
8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
9 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
10 楊傳耀;中文信息檢索索引模型及相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉琨;搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2004年
2 高磊;基于LUCENE的搜索引擎研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2007年
3 謝騁超;基于語義的數(shù)據(jù)庫全文檢索系統(tǒng)[D];浙江大學(xué);2006年
4 閆繼鋼;搜索引擎的研究與實(shí)現(xiàn)[D];蘭州大學(xué);2009年
5 蘇亮;基于多級Hash分詞的全文搜索引擎的研究[D];北京郵電大學(xué);2008年
6 馮斌;基于Lucene小型搜索引擎的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2008年
7 全俊林;面向OA系統(tǒng)的個性化搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D];武漢理工大學(xué);2007年
8 劉宏偉;搜索引擎中中文WEB文本自動分類研究[D];暨南大學(xué);2007年
9 徐財(cái)應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長春理工大學(xué);2010年
10 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
本文關(guān)鍵詞:基于多級Hash分詞的全文搜索引擎的研究,,由筆耕文化傳播整理發(fā)布。
本文編號:119432
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/119432.html