基于Nutch的農(nóng)業(yè)信息垂直搜索引擎的研究與實現(xiàn)
發(fā)布時間:2023-08-26 04:26
Google公司于1998年成立以來至今,迅速占領(lǐng)了全球大部分的搜索引擎領(lǐng)域市場,其發(fā)展之迅猛,讓全人類震驚。隨著互聯(lián)網(wǎng)的快速發(fā)展,無數(shù)的搜索引擎服務(wù)接踵而至。從早期外國的Yahoo、 AltaVista、Google,到現(xiàn)今國內(nèi)的百度、搜狗、搜搜、有道等,各大互聯(lián)網(wǎng)巨頭都推出了各種各樣的搜索引擎服務(wù)。與此同時,隨著互聯(lián)網(wǎng)上的網(wǎng)絡(luò)信息的爆炸式增長,大部分的網(wǎng)站都需要為自己添加高效的搜索功能,給予用戶及時、正確的信息。不僅是門戶類的全文搜索,針對企業(yè)的各種文檔信息檢索的應(yīng)用以及專門針對于各個行業(yè)的專業(yè)的垂直搜索引擎的需求也在直線上升。 當(dāng)人們發(fā)現(xiàn)搜索技術(shù)無法滿足用戶日益增長的需求,開始探索搜索引擎的技術(shù)。各種探討搜索引擎技術(shù)的文章,書籍,期刊等層出不窮,無數(shù)的技術(shù)專家投身于搜索引擎開發(fā),一時間,搜索技術(shù)風(fēng)靡全球。搜索引擎技術(shù)是一種多領(lǐng)域?qū)W科交互的高端技術(shù),它包含了許多學(xué)術(shù)領(lǐng)域的先進的思想。它包括了編程語言,自然語言,機器語言,人工智能,數(shù)學(xué),統(tǒng)計學(xué)等眾多領(lǐng)域。因此,設(shè)計開發(fā)一款優(yōu)秀的搜索引擎產(chǎn)品絕非易事。 我國是農(nóng)業(yè)大國,全國有8億左右的農(nóng)民,農(nóng)業(yè)是我國的支柱企業(yè),但是農(nóng)業(yè)信息化的建設(shè)卻...
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 課題背景
1.2 課題任務(wù)
1.3 論文結(jié)構(gòu)
第二章 搜索引擎概述
2.1 搜索引擎概念
2.1.1 信息檢索
2.1.2 搜索引擎的概念
2.1.3 搜索引擎的使用
2.1.4 搜索引擎發(fā)展歷史
2.2 搜索引擎分類
2.2.1 按照工作方式分類
2.2.2 按照領(lǐng)域范圍分類
2.2.3 按照信息類型分類
2.3 主流搜索引擎
2.3.1 全球著名搜索引擎
2.3.2 中文搜索引擎的發(fā)展歷史
2.3.3 其他細化搜索引擎
2.4 搜索引擎評價原則
2.5 未來搜索技術(shù)前瞻
2.5.1 現(xiàn)狀存在問題
2.5.2 未來發(fā)展趨勢
2.6 搜索引擎原理
2.7 開源搜索引擎NUTCH
2.7.1 Nutch簡介
2.7.2 Nutch架構(gòu)
2.7.3 Nutch命令
2.7.4 Nutch存儲形式
2.8 本章小結(jié)
第三章 基于NUTCH的農(nóng)業(yè)信息垂直搜索引擎需求分析
3.1 農(nóng)業(yè)搜索的現(xiàn)狀分析
3.2 農(nóng)業(yè)搜索的特點與功能需求
3.3 基于NUTCH構(gòu)建農(nóng)業(yè)信息搜索引擎的可行性分析
第四章 基于NUTCH的農(nóng)業(yè)信息垂直搜索引擎設(shè)計
4.1 系統(tǒng)運行環(huán)境
4.2 系統(tǒng)總體架構(gòu)
4.3 構(gòu)建農(nóng)業(yè)領(lǐng)域本體
4.3.1 本體概念
4.3.2 構(gòu)建本體語言工具
4.3.3 構(gòu)建農(nóng)業(yè)領(lǐng)域本體
4.3.4 農(nóng)業(yè)領(lǐng)域本體的推理
4.3.5 農(nóng)業(yè)領(lǐng)域本體的應(yīng)用
4.4 網(wǎng)絡(luò)爬蟲設(shè)計
4.4.1 網(wǎng)絡(luò)爬蟲策略分析
4.4.2 網(wǎng)絡(luò)爬蟲功能設(shè)計
4.4.3 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)
4.4.4 網(wǎng)絡(luò)爬蟲效率優(yōu)化
4.4.5 網(wǎng)絡(luò)爬蟲的黑洞
4.4.6 主題爬蟲
4.4.7 網(wǎng)絡(luò)爬蟲訪問規(guī)范
4.5 文檔分析與中文分詞設(shè)計
4.5.1 文檔分析功能需求
4.5.2 文檔分析方法
4.5.3 文檔分析結(jié)構(gòu)
4.5.4 中文分詞方法
4.5.5 Lucene中文分詞
4.5.6 非結(jié)構(gòu)化文本處理
4.6 文檔索引設(shè)計
4.6.1 索引功能需求
4.6.2 文檔索引方法
4.6.3 實現(xiàn)倒排索引
4.6.4 選擇索引類型
4.7 文檔檢索設(shè)計
4.7.1 檢索功能需求
4.7.2 檢索基本流程
4.7.3 查詢結(jié)果顯示
4.7.4 高性能查詢
4.7.5 搜索緩存設(shè)計
4.7.6 利用“語義指紋”排除重復(fù)文檔
4.7.7 Simhash重排
4.8 搜索引擎結(jié)果排序設(shè)計
4.8.1 傳統(tǒng)檢索排序技術(shù)
4.8.2 搜索引擎相關(guān)性排序設(shè)計
4.8.3 鏈接分析PageRank
4.8.4 鏈接分析HITS
4.8.5 PageRank與HITS的比較
4.8.6 搜索引擎排序流程
4.9 分布式檢索設(shè)計
4.9.1 MapReduce系統(tǒng)介紹
4.9.2 Nutch分布式檢索
4.10 本章小結(jié)
第五章 基于NUTCH的農(nóng)業(yè)信息垂直搜索引擎的實現(xiàn)
5.1 構(gòu)建農(nóng)業(yè)領(lǐng)域本題的實現(xiàn)
5.2 農(nóng)業(yè)關(guān)鍵詞管理的實現(xiàn)
5.2.1 農(nóng)業(yè)關(guān)鍵詞策略
5.2.2 農(nóng)業(yè)關(guān)鍵詞存儲設(shè)計
5.2.3 農(nóng)業(yè)關(guān)鍵詞管理程序
5.3 農(nóng)業(yè)資源發(fā)現(xiàn)的實現(xiàn)
5.4 農(nóng)業(yè)信息下載的實現(xiàn)
5.5 網(wǎng)頁信息分析的實現(xiàn)
5.5.1 網(wǎng)頁內(nèi)容解析
5.5.2 創(chuàng)建索引
5.6 農(nóng)業(yè)信息檢索的實現(xiàn)
5.6.1 檢索后臺實現(xiàn)
5.6.2 檢索前臺實現(xiàn)
5.7 本章小結(jié)
第六章 結(jié)束語
6.1 論文工作總結(jié)
6.2 問題和展望
參考文獻
致謝
本文編號:3843951
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 課題背景
1.2 課題任務(wù)
1.3 論文結(jié)構(gòu)
第二章 搜索引擎概述
2.1 搜索引擎概念
2.1.1 信息檢索
2.1.2 搜索引擎的概念
2.1.3 搜索引擎的使用
2.1.4 搜索引擎發(fā)展歷史
2.2 搜索引擎分類
2.2.1 按照工作方式分類
2.2.2 按照領(lǐng)域范圍分類
2.2.3 按照信息類型分類
2.3 主流搜索引擎
2.3.1 全球著名搜索引擎
2.3.2 中文搜索引擎的發(fā)展歷史
2.3.3 其他細化搜索引擎
2.4 搜索引擎評價原則
2.5 未來搜索技術(shù)前瞻
2.5.1 現(xiàn)狀存在問題
2.5.2 未來發(fā)展趨勢
2.6 搜索引擎原理
2.7 開源搜索引擎NUTCH
2.7.1 Nutch簡介
2.7.2 Nutch架構(gòu)
2.7.3 Nutch命令
2.7.4 Nutch存儲形式
2.8 本章小結(jié)
第三章 基于NUTCH的農(nóng)業(yè)信息垂直搜索引擎需求分析
3.1 農(nóng)業(yè)搜索的現(xiàn)狀分析
3.2 農(nóng)業(yè)搜索的特點與功能需求
3.3 基于NUTCH構(gòu)建農(nóng)業(yè)信息搜索引擎的可行性分析
第四章 基于NUTCH的農(nóng)業(yè)信息垂直搜索引擎設(shè)計
4.1 系統(tǒng)運行環(huán)境
4.2 系統(tǒng)總體架構(gòu)
4.3 構(gòu)建農(nóng)業(yè)領(lǐng)域本體
4.3.1 本體概念
4.3.2 構(gòu)建本體語言工具
4.3.3 構(gòu)建農(nóng)業(yè)領(lǐng)域本體
4.3.4 農(nóng)業(yè)領(lǐng)域本體的推理
4.3.5 農(nóng)業(yè)領(lǐng)域本體的應(yīng)用
4.4 網(wǎng)絡(luò)爬蟲設(shè)計
4.4.1 網(wǎng)絡(luò)爬蟲策略分析
4.4.2 網(wǎng)絡(luò)爬蟲功能設(shè)計
4.4.3 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)
4.4.4 網(wǎng)絡(luò)爬蟲效率優(yōu)化
4.4.5 網(wǎng)絡(luò)爬蟲的黑洞
4.4.6 主題爬蟲
4.4.7 網(wǎng)絡(luò)爬蟲訪問規(guī)范
4.5 文檔分析與中文分詞設(shè)計
4.5.1 文檔分析功能需求
4.5.2 文檔分析方法
4.5.3 文檔分析結(jié)構(gòu)
4.5.4 中文分詞方法
4.5.5 Lucene中文分詞
4.5.6 非結(jié)構(gòu)化文本處理
4.6 文檔索引設(shè)計
4.6.1 索引功能需求
4.6.2 文檔索引方法
4.6.3 實現(xiàn)倒排索引
4.6.4 選擇索引類型
4.7 文檔檢索設(shè)計
4.7.1 檢索功能需求
4.7.2 檢索基本流程
4.7.3 查詢結(jié)果顯示
4.7.4 高性能查詢
4.7.5 搜索緩存設(shè)計
4.7.6 利用“語義指紋”排除重復(fù)文檔
4.7.7 Simhash重排
4.8 搜索引擎結(jié)果排序設(shè)計
4.8.1 傳統(tǒng)檢索排序技術(shù)
4.8.2 搜索引擎相關(guān)性排序設(shè)計
4.8.3 鏈接分析PageRank
4.8.4 鏈接分析HITS
4.8.5 PageRank與HITS的比較
4.8.6 搜索引擎排序流程
4.9 分布式檢索設(shè)計
4.9.1 MapReduce系統(tǒng)介紹
4.9.2 Nutch分布式檢索
4.10 本章小結(jié)
第五章 基于NUTCH的農(nóng)業(yè)信息垂直搜索引擎的實現(xiàn)
5.1 構(gòu)建農(nóng)業(yè)領(lǐng)域本題的實現(xiàn)
5.2 農(nóng)業(yè)關(guān)鍵詞管理的實現(xiàn)
5.2.1 農(nóng)業(yè)關(guān)鍵詞策略
5.2.2 農(nóng)業(yè)關(guān)鍵詞存儲設(shè)計
5.2.3 農(nóng)業(yè)關(guān)鍵詞管理程序
5.3 農(nóng)業(yè)資源發(fā)現(xiàn)的實現(xiàn)
5.4 農(nóng)業(yè)信息下載的實現(xiàn)
5.5 網(wǎng)頁信息分析的實現(xiàn)
5.5.1 網(wǎng)頁內(nèi)容解析
5.5.2 創(chuàng)建索引
5.6 農(nóng)業(yè)信息檢索的實現(xiàn)
5.6.1 檢索后臺實現(xiàn)
5.6.2 檢索前臺實現(xiàn)
5.7 本章小結(jié)
第六章 結(jié)束語
6.1 論文工作總結(jié)
6.2 問題和展望
參考文獻
致謝
本文編號:3843951
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3843951.html
最近更新
教材專著