基于Lucene的手機(jī)全文檢索功能的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Lucene的手機(jī)全文檢索功能的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:對(duì)于專業(yè)Web站點(diǎn)來(lái)說(shuō),一個(gè)優(yōu)秀的網(wǎng)站內(nèi)部全文檢索系統(tǒng)是不可或缺的。通常有兩種解決辦法:一種是使用通用的桌面搜索引擎提供的站內(nèi)搜索功能來(lái)檢索站點(diǎn)內(nèi)部數(shù)據(jù);第二種是開(kāi)發(fā)特定專用的站內(nèi)全文檢索系統(tǒng)。課題主要內(nèi)容是對(duì)搜索引擎方面技術(shù)、數(shù)據(jù)爬取、分詞、檢索算法等資料分析研究,設(shè)計(jì)實(shí)現(xiàn)一種提供手機(jī)專用檢索功能的垂直搜索引擎。垂直搜索引擎又被稱為主題搜索引擎或者專題搜索引擎。這類搜索引擎采集某一學(xué)科、某一主題、某一行業(yè)范圍的信息資源,并用較為詳細(xì)和專業(yè)的方法對(duì)信息資源進(jìn)行標(biāo)引和描述。主題搜索引擎專注于自己的核心技術(shù),保證對(duì)特定領(lǐng)域信息的完整收錄與即時(shí)更新,在提供專業(yè)信息方面有著大型通用搜索引擎無(wú)法比擬的優(yōu)勢(shì)。因此課題意義在于通過(guò)對(duì)基于因特網(wǎng)的搜索技術(shù)的綜合分析,對(duì)比國(guó)內(nèi)外各種搜索引擎的技術(shù),并給出一個(gè)基于手機(jī)主題搜索引擎系統(tǒng)實(shí)際開(kāi)發(fā),希望可以作一些有益的探討。論文對(duì)面向主題搜索引擎的關(guān)鍵技術(shù)進(jìn)行了分析,提出了一種基于Lucene面向主題搜索引擎的解決方案,并實(shí)現(xiàn)了對(duì)手機(jī)信息的搜索實(shí)現(xiàn)。課題對(duì)主題搜索引擎的關(guān)鍵技術(shù)即:信息抓取、索引、檢索進(jìn)行了深入分析和研究;研究Heritrix的應(yīng)用和搜索策略;重點(diǎn)研究Java的索引工具包Lucene。然后,基于以上關(guān)鍵技術(shù)提出以手機(jī)為主題的搜索引擎的設(shè)計(jì)方案,包括系統(tǒng)設(shè)計(jì)思想,技術(shù)策略,結(jié)構(gòu)框架,開(kāi)發(fā)環(huán)境等,并將設(shè)計(jì)付諸實(shí)踐。論文詳細(xì)介紹了基于Lucene的手機(jī)主題搜索引擎的具體實(shí)現(xiàn)過(guò)程,并對(duì)系統(tǒng)測(cè)試與運(yùn)行情況進(jìn)行展示。課題的主要研究?jī)?nèi)容包括:研究分析通用搜索引擎和主題搜索引擎的關(guān)鍵技術(shù)并對(duì)不同的搜索技術(shù)進(jìn)行對(duì)比;對(duì)Apache Lucene全文索引引擎工具包進(jìn)行深入剖析,比較Lucene檢索和傳統(tǒng)數(shù)據(jù)庫(kù)檢索的異同,以及中文分詞技術(shù);在分析研究主題搜索引擎關(guān)鍵技術(shù)的基礎(chǔ)上,實(shí)現(xiàn)基于Lucene的Web站內(nèi)全文檢索系統(tǒng);分析用于設(shè)計(jì)和實(shí)現(xiàn)的關(guān)鍵技術(shù),并分析得出搜索技術(shù)的擴(kuò)展和重建的可能。
【關(guān)鍵詞】:垂直搜索引擎 Lucene 中文分詞 Heritrix
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- abstract6-11
- 第一章 緒論11-19
- 1.1 設(shè)計(jì)的目的和意義11-12
- 1.2 搜索引擎概述12-17
- 1.2.1 搜索引擎的基本概念和發(fā)展史12-13
- 1.2.2 搜索引擎的分類13-16
- 1.2.3 搜索引擎面臨的問(wèn)題16
- 1.2.4 垂直搜索引擎的優(yōu)點(diǎn)16-17
- 1.2.5 搜索引擎的性能評(píng)價(jià)標(biāo)準(zhǔn)17
- 1.3 國(guó)內(nèi)外研究現(xiàn)狀17-18
- 1.4 論文的章節(jié)安排18
- 1.5 本章小結(jié)18-19
- 第二章 理論與技術(shù)基礎(chǔ)19-31
- 2.1 信息檢索與全文檢索系統(tǒng)概述19-21
- 2.1.1 信息檢索的概念及分類19
- 2.1.2 全文檢索系統(tǒng)中建立索引與進(jìn)行檢索的流程19-20
- 2.1.3 全文檢索系統(tǒng)的基本功能20-21
- 2.2 JBPM技術(shù)21-23
- 2.3 ASP.NET技術(shù)概要23-24
- 2.4 SOA技術(shù)概要24-26
- 2.5 ORACLE數(shù)據(jù)庫(kù)26-27
- 2.6 SQL SERVER數(shù)據(jù)庫(kù)技術(shù)27-29
- 2.7 RATIONAL ROSE29-30
- 2.7.1 軟件簡(jiǎn)介29-30
- 2.7.2 特性及功能30
- 2.8 本章小結(jié)30-31
- 第三章 LUCENE的手機(jī)全文檢索系統(tǒng)需求分析31-42
- 3.1 系統(tǒng)開(kāi)發(fā)的可行性分析31-32
- 3.1.1 經(jīng)濟(jì)方面可行性分析31
- 3.1.2 技術(shù)方面的可行性分析31-32
- 3.1.3 操作方面的可行性32
- 3.2 系統(tǒng)的功能分析32-36
- 3.2.1 資源抓取模塊32-33
- 3.2.2 索引模塊33-34
- 3.2.3 檢索模塊34-35
- 3.2.4 搜索界面模塊35-36
- 3.3 系統(tǒng)LUCENE的類分析36-37
- 3.3.1 核心索引類36
- 3.3.2 核心搜索類36-37
- 3.4 設(shè)計(jì)思想和策略分析37-38
- 3.5 系統(tǒng)總體和模塊結(jié)構(gòu)分析38-39
- 3.6 功能流程設(shè)計(jì)分析39-41
- 3.7 LUCENE檢索功能用途分析41
- 3.8 本章小結(jié)41-42
- 第四章 LUCENE的手機(jī)全文檢索系統(tǒng)設(shè)計(jì)42-50
- 4.1 開(kāi)發(fā)設(shè)計(jì)環(huán)境42
- 4.2 索引擎系統(tǒng)屬性配置文件設(shè)計(jì)42-43
- 4.3 手機(jī)專用搜索引擎中所要使用的JAR43-44
- 4.4 手機(jī)搜索引擎所要用到的包44
- 4.5 數(shù)據(jù)庫(kù)的設(shè)計(jì)44-45
- 4.5.1 數(shù)據(jù)庫(kù)概念設(shè)計(jì)44-45
- 4.5.2 數(shù)據(jù)庫(kù)的建立45
- 4.6 系統(tǒng)的模塊設(shè)計(jì)45-49
- 4.6.1 資源抓取模塊46-47
- 4.6.2 索引模塊47-48
- 4.6.3 搜索模塊48-49
- 4.7 本章小結(jié)49-50
- 第五章 LUCENE的手機(jī)全文檢索功能的實(shí)現(xiàn)50-62
- 5.1 配置文件實(shí)現(xiàn)50-51
- 5.2 資源抓取的實(shí)現(xiàn)51-52
- 5.3 索引模塊的實(shí)現(xiàn)52-58
- 5.3.1 詞庫(kù)的建立53-54
- 5.3.2 解析的實(shí)現(xiàn)54-58
- 5.4 搜索界面實(shí)現(xiàn)58-61
- 5.5 本章小結(jié)61-62
- 第六章 系統(tǒng)測(cè)試62-71
- 6.1 系統(tǒng)介紹62
- 6.2 測(cè)試環(huán)境62-63
- 6.2.1 硬件環(huán)境62
- 6.2.2 軟件環(huán)境62-63
- 6.2.3 測(cè)試范圍與主要內(nèi)容63
- 6.3 測(cè)試計(jì)劃執(zhí)行情況63-64
- 6.3.1 索引模塊測(cè)試63
- 6.3.2 分詞模塊測(cè)試63
- 6.3.3 搜索模塊測(cè)試63
- 6.3.4 服務(wù)器模塊測(cè)試63-64
- 6.3.5 各個(gè)模塊之間的接口測(cè)試64
- 6.4 系統(tǒng)測(cè)試64
- 6.5 索引模塊測(cè)試64-65
- 6.6 數(shù)據(jù)庫(kù)模塊測(cè)試65-66
- 6.7 搜索模塊測(cè)試66-69
- 6.8 頁(yè)面測(cè)試69
- 6.9 評(píng)價(jià)69-70
- 6.10本章小結(jié)70-71
- 第七章 結(jié)論與展望71-73
- 7.1 結(jié)論71
- 7.2 展望71-73
- 致謝73-74
- 參考文獻(xiàn)74-77
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 肖詩(shī)斌;互聯(lián)網(wǎng)需要全文檢索[J];中國(guó)計(jì)算機(jī)用戶;2000年36期
2 傅軍;;報(bào)紙數(shù)字化與全文檢索方法研究[J];鐵路計(jì)算機(jī)應(yīng)用;2012年06期
3 張?jiān)?鄧聲菊;沈德鈺;安蕾;;案說(shuō)高效全文檢索的途徑與技巧[J];中國(guó)發(fā)明與專利;2012年09期
4 滌非;美國(guó)化學(xué)學(xué)會(huì)18種雜志實(shí)現(xiàn)全文檢索[J];計(jì)算機(jī)與圖書館;1983年04期
5 楊則正;借助于Zylmage Web Server的全文檢索[J];管理科學(xué)文摘;1998年08期
6 ;文海撈針——全文檢索在北京日?qǐng)?bào)社的應(yīng)用[J];每周電腦報(bào);1999年22期
7 劉凌云,章銀良,郭秀麗;多媒體全文檢索光盤的系統(tǒng)組成與檢索原理[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào);2000年01期
8 ;全文檢索入佳境[J];微電腦世界;2000年37期
9 曉月;;全文檢索原理及實(shí)現(xiàn)[J];程序員;2006年12期
10 吳澤彬;魏潔;李蔚清;吳慧中;;面向服務(wù)架構(gòu)的全文檢索研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年S1期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前8條
1 曾福萍;周定康;;基于索引服務(wù)器實(shí)現(xiàn)全文檢索[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
2 史建斌;;軍控核查數(shù)據(jù)庫(kù)光盤全文檢索功能的原理及實(shí)現(xiàn)[A];中國(guó)工程物理研究院科技年報(bào)(2005)[C];2005年
3 范志新;王寧;陶曉鵬;施伯樂(lè);;開(kāi)放式圖書館漢語(yǔ)檢索結(jié)構(gòu)[A];數(shù)據(jù)庫(kù)研究進(jìn)展97——第十四屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(下)[C];1997年
4 朱虹;吳林;;DM4全文檢索機(jī)制的設(shè)計(jì)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
5 朱虹;黃歡;;DM4全文檢索機(jī)制的改進(jìn)[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
6 張誼巖;張霞;;OpenBASE中BLOB型文本數(shù)據(jù)全文檢索的設(shè)計(jì)與實(shí)現(xiàn)[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
7 劉亞軍;劉延軍;胡陽(yáng);;報(bào)刊圖書數(shù)字資源公共服務(wù)平臺(tái)項(xiàng)目規(guī)劃設(shè)計(jì)[A];中國(guó)新聞技術(shù)工作者聯(lián)合會(huì)2013年學(xué)術(shù)年會(huì)、五屆五次理事會(huì)暨第六屆“王選新聞科學(xué)技術(shù)獎(jiǎng)”和優(yōu)秀論文獎(jiǎng)?lì)C獎(jiǎng)大會(huì)論文集(報(bào)業(yè)篇)[C];2013年
8 王富強(qiáng);馬德濤;張立朝;王建明;;地方志數(shù)據(jù)庫(kù)全文信息檢索研究[A];中國(guó)地理信息系統(tǒng)協(xié)會(huì)第四次會(huì)員代表大會(huì)暨第十一屆年會(huì)論文集[C];2007年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條
1 馮貝;“工”于全文檢索的數(shù)據(jù)庫(kù)系統(tǒng)[N];科技日?qǐng)?bào);2001年
2 寧夏數(shù)據(jù)通信局 劉君;SQL Server 2000中全文檢索的使用[N];計(jì)算機(jī)世界;2002年
3 郭瑩;全文檢索市場(chǎng)空間大[N];中國(guó)計(jì)算機(jī)報(bào);2006年
4 陳玉榮;更多、更快、更新的檢索系統(tǒng)[N];中國(guó)企業(yè)報(bào);2000年
5 子華;從全文檢索到信息整合[N];計(jì)算機(jī)世界;2003年
6 寧夏 劉君;SQL Server中全文檢索的使用[N];電腦報(bào);2001年
7 《金周刊》記者 康e
本文編號(hào):297876
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/297876.html