基于多級Hash分詞的全文搜索引擎的研究
本文關鍵詞:基于多級Hash分詞的全文搜索引擎的研究,由筆耕文化傳播整理發(fā)布。
《北京郵電大學》 2008年
基于多級Hash分詞的全文搜索引擎的研究
蘇亮
【摘要】: 中文分詞作為現(xiàn)代搜索引擎技術的重要基礎,一直以來是人們研究的熱點和難點。Lucene是一個成熟、開源的軟件項目,是一個高性能的信息檢索和查詢工具,通過對Lucene源代碼的分析和編程實驗,讓我們領略到了Lucene的精髓。由于其提供了一套簡單卻十分強大的核心API,使得我們可以快速得將它集成到我們自己應用程序中。但是,Lucene的核心包和擴展包對中文分詞采取類似英文的機械式切分方法。然而由于中英文之間在形式上存在著巨大的差異,這種切分方法的分詞效果是非常低效的。本文在通過對Lucene分詞的結(jié)構的分析,設計出了一種基于Hash的Lucene的高效機械分詞方法。 目前信息處理用的詞典機制主要有整詞二分、TRIE索引樹、逐字二分等幾種方法,其中TRIE索引樹和逐字二分機制查詢效率較高。這幾種詞典機制都是以排序的線性表來提高查詢效率,數(shù)據(jù)結(jié)構比較復雜且查詢速度較慢。本文主要工作是分析了幾種常用詞典構造方法的優(yōu)缺點,針對分詞中特定的查詢條件,設計并實現(xiàn)了基于Hash的分詞詞典,同時分析了基于Hash的分詞詞典的性能。 本文在此研究基礎上開發(fā)出了個人桌面搜索引擎系統(tǒng),索引和搜索部分利用Lucene引擎架構,實現(xiàn)了比Lucene自帶的中文分詞更有效的中文分詞。文章最后在系統(tǒng)設計和實現(xiàn)的基礎上,對中文分詞進行了速度和準確率的測試,并在此基礎上提出了今后努力的方向。
【關鍵詞】:
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2008
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉兆偉;黃永峰;;面向主題搜索引擎的實現(xiàn)與優(yōu)化[J];數(shù)據(jù)通信;2011年04期
2 周拴龍;;Lucene.net中文分詞算法分析[J];鄭州大學學報(理學版);2011年03期
3 付光;;面向招聘信息主題搜索引擎的研究與設計[J];廣西教育;2011年18期
4 ;李彥宏論搜索引擎三個定律[J];新電子;2001年02期
5 相春雷;;2009年中國搜索引擎市場趨勢分析[J];軟件世界;2010年02期
6 ;揭秘搜索引擎收錄網(wǎng)站的秘密[J];計算機與網(wǎng)絡;2010年Z1期
7 馬玥;;王小川:絕境之外[J];中國經(jīng)濟和信息化;2011年12期
8 魏蕾如;;基于搜索引擎的網(wǎng)絡中文信息檢索工具評價[J];數(shù)字技術與應用;2011年06期
9 ;創(chuàng)新工業(yè)搜索引擎[J];中國制造業(yè)信息化;2011年12期
10 鄒燕飛;于成尊;趙亮;;基于Lucene的文本搜索引擎的設計和實現(xiàn)[J];計算機與現(xiàn)代化;2011年09期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
5 劉凡平;高艷華;于炯;張偉;;基于關鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學術會議論文集[C];2010年
6 湯薇;曾艷;;構建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
7 姚樹宇;趙少東;;一種使用分布式技術的搜索引擎[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年
8 倪俊峰;;基于黃頁搜索引擎的關鍵字排名廣告系統(tǒng)的設計與實現(xiàn)[A];2005年中國索引學會年會暨學術研討會論文集[C];2005年
9 張怡;查貴庭;;SEO在信息服務中的應用研究[A];2010年中國索引學會年會暨學術研討會論文集[C];2010年
10 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第2屆中國普適計算學術會議(PCC'06)論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 清華大學IT可用性實驗室;[N];計算機世界;2005年
2 姜蕊;[N];中國商報;2006年
3 主持人 陳建棟;[N];光明日報;2005年
4 本報記者 陳建棟;[N];光明日報;2005年
5 曾正樂;[N];經(jīng)濟日報;2005年
6 本報記者 秦海波;[N];經(jīng)濟日報;2005年
7 FN記者 柳立;[N];金融時報;2005年
8 閆輝;[N];計算機世界;2005年
9 本報記者 李劍;[N];通信信息報;2005年
10 華夏;[N];江蘇科技報;2008年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
3 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年
4 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年
5 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年
7 王镠璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
8 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年
9 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年
10 楊傳耀;中文信息檢索索引模型及相關技術研究[D];復旦大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉琨;搜索引擎的研究與實現(xiàn)[D];西安電子科技大學;2004年
2 高磊;基于LUCENE的搜索引擎研究與實現(xiàn)[D];武漢理工大學;2007年
3 謝騁超;基于語義的數(shù)據(jù)庫全文檢索系統(tǒng)[D];浙江大學;2006年
4 閆繼鋼;搜索引擎的研究與實現(xiàn)[D];蘭州大學;2009年
5 蘇亮;基于多級Hash分詞的全文搜索引擎的研究[D];北京郵電大學;2008年
6 馮斌;基于Lucene小型搜索引擎的研究與實現(xiàn)[D];武漢理工大學;2008年
7 全俊林;面向OA系統(tǒng)的個性化搜索引擎設計與實現(xiàn)[D];武漢理工大學;2007年
8 劉宏偉;搜索引擎中中文WEB文本自動分類研究[D];暨南大學;2007年
9 徐財應;基于Lucene的搜索引擎技術的研究與改進[D];長春理工大學;2010年
10 張彬;基于lucene的搜索引擎[D];上海師范大學;2010年
本文關鍵詞:基于多級Hash分詞的全文搜索引擎的研究,,由筆耕文化傳播整理發(fā)布。
本文編號:119432
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/119432.html