木材垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-10-26 14:43
互聯(lián)網(wǎng)上豐富的信息資源給人們的工作和生活帶來(lái)巨大效益和便利的同時(shí),也帶來(lái)了巨大的信息冗余。我們?cè)谑褂脗鹘y(tǒng)的通用搜索引擎時(shí),經(jīng)常會(huì)遇到這樣的問(wèn)題,為了搜索到一些專業(yè)的基礎(chǔ)知識(shí),不得不在眾多的網(wǎng)站中,花費(fèi)大量的時(shí)間去尋找,而垂直搜索引擎的出現(xiàn)為解決這類問(wèn)題提供了很好的方法。本文對(duì)垂直搜索的主題爬蟲設(shè)計(jì)和主題詞庫(kù)建立進(jìn)行了研究,并基于這些技術(shù)設(shè)計(jì)實(shí)現(xiàn)了一個(gè)木材垂直搜索引擎。本論文首先介紹了搜索引擎的歷史、現(xiàn)狀、面臨的問(wèn)題,以及垂直搜索引擎的優(yōu)勢(shì)和現(xiàn)狀;在了解搜索引擎結(jié)構(gòu)、整體工作流程的基礎(chǔ)上,分析了垂直搜索實(shí)現(xiàn)的關(guān)鍵技術(shù),重點(diǎn)探討了基于Shark算法的主題爬蟲技術(shù)和主題詞庫(kù)建立。其次,基于木材行業(yè),采用從專業(yè)書籍提取和領(lǐng)域?qū)<医ㄗh的方式構(gòu)建了一個(gè)木材主題詞庫(kù),為后續(xù)的分詞,主題相關(guān)性判斷、建立索引提供了支持。接著,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)木材垂直搜索引擎,給出了系統(tǒng)的總體結(jié)構(gòu)圖。整個(gè)系統(tǒng)的實(shí)現(xiàn)采用了定制和擴(kuò)展網(wǎng)絡(luò)爬蟲Heritrix來(lái)抓取木材主題相關(guān)的網(wǎng)頁(yè)信息,利用Lucene這個(gè)開源的搜索引擎框架為系統(tǒng)提供快速、全面的全文索引和檢索服務(wù)等一系列技術(shù)最后,對(duì)系統(tǒng)進(jìn)行測(cè)試,將搜索結(jié)果與Google、百...
【文章來(lái)源】:北京林業(yè)大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
1 引言
1.1 搜索引擎概述
1.1.1 搜索引擎發(fā)展史
1.1.2 搜索引擎的分類
1.1.3 搜索引擎現(xiàn)狀
1.1.4 搜索引擎面臨的問(wèn)題
1.2 垂直搜索引擎概述
1.2.1 垂直搜索引擎的定義
1.2.2 垂直搜索引擎的優(yōu)勢(shì)
1.2.3 垂直搜索引擎研究現(xiàn)狀
1.3 選題的目的和意義
1.4 論文組織結(jié)構(gòu)
2 搜索引擎的結(jié)構(gòu)及開源框架
2.1 搜索引擎結(jié)構(gòu)
2.1.1 搜索器
2.1.2 索引器
2.1.3 檢索器
2.1.4 用戶接口
2.1.5 垂直搜索引擎結(jié)構(gòu)
2.2 網(wǎng)絡(luò)爬蟲
2.2.1 網(wǎng)絡(luò)爬蟲概述
2.2.2 開源網(wǎng)絡(luò)爬蟲
2.3 開源搜索引擎框架Lucene
2.3.1 Lucene簡(jiǎn)介
2.3.2 Lucene結(jié)構(gòu)
3 垂直搜索關(guān)鍵技術(shù)分析
3.1 主題爬蟲技術(shù)
3.1.1 基于Web鏈接分析的算法
3.1.2 基于文本內(nèi)容的算法
3.1.3 基于本體的算法
3.1.4 本文的算法
3.2 主題詞庫(kù)構(gòu)建
3.2.1 基于關(guān)鍵詞的主題表示方法
3.2.2 基于本體的主題表示方法
3.2.3 木材主題詞庫(kù)構(gòu)建
3.3 預(yù)處理技術(shù)
3.4 分詞技術(shù)
3.4.1 基于字符串匹配的分詞
3.4.2 基于概率統(tǒng)計(jì)的分詞
3.5 索引技術(shù)
3.5.1 索引建立
3.5.2 主題相關(guān)度排序
4 木材垂直搜索引擎的實(shí)現(xiàn)
4.1 系統(tǒng)結(jié)構(gòu)和功能
4.1.1 系統(tǒng)結(jié)構(gòu)
4.1.2 系統(tǒng)功能
4.2 木材主題信息采集實(shí)現(xiàn)
4.2.1 主題爬蟲實(shí)現(xiàn)
4.2.2 主題詞庫(kù)的建立
4.2.3 預(yù)處理實(shí)現(xiàn)
4.3 索引的實(shí)現(xiàn)
4.3.1 索引建立準(zhǔn)備
4.3.2 索引數(shù)據(jù)庫(kù)實(shí)現(xiàn)
4.4 檢索的實(shí)現(xiàn)
4.4.1 檢索結(jié)構(gòu)設(shè)計(jì)
4.4.2 檢索實(shí)現(xiàn)
4.5 實(shí)驗(yàn)結(jié)果和分析
5 結(jié)論與展望
5.1 結(jié)論
5.2 展望
參考文獻(xiàn)
個(gè)人簡(jiǎn)介
導(dǎo)師簡(jiǎn)介
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于Shark-Search和Hits算法的主題爬蟲研究[J]. 羅林波,陳綺,吳清秀. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(11)
[2]一種改進(jìn)Shark-Search的多媒體主題搜索算法[J]. 楊仁廣,宋宇,孟祥增. 計(jì)算機(jī)工程與應(yīng)用. 2010(14)
[3]基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J]. 戚欣. 武漢理工大學(xué)學(xué)報(bào). 2009(03)
[4]基于概率的PageRank改進(jìn)算法[J]. 林泓,劉朋,李晶晶,龍振海. 武漢理工大學(xué)學(xué)報(bào). 2009(03)
[5]基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J]. 白坤,耿國(guó)華. 計(jì)算機(jī)應(yīng)用與軟件. 2009(01)
[6]基于領(lǐng)域本體的主題信息采集方法[J]. 鄭國(guó)良,葉飛躍,林國(guó)俊,耿冬. 計(jì)算機(jī)應(yīng)用. 2008(12)
[7]主題爬蟲的搜索策略研究[J]. 劉漢興,劉財(cái)興. 計(jì)算機(jī)工程與設(shè)計(jì). 2008(12)
[8]基于本體的主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊貞,杜習(xí)英. 科技情報(bào)開發(fā)與經(jīng)濟(jì). 2008(02)
[9]基于網(wǎng)頁(yè)分塊的Shark-Search算法[J]. 陳軍,陳竹敏. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2007(09)
[10]基于PageRank和錨文本的網(wǎng)頁(yè)排序研究[J]. 劉菁菁,林鴻飛,趙晶. 計(jì)算機(jī)工程與應(yīng)用. 2007(10)
碩士論文
[1]林業(yè)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 郭艷芬.北京林業(yè)大學(xué) 2011
[2]基于領(lǐng)域本體的主題爬蟲研究及實(shí)現(xiàn)[D]. 林碧霞.西南交通大學(xué) 2010
[3]面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D]. 張楠.西南交通大學(xué) 2010
[4]基于內(nèi)容的個(gè)性化Web信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 曹鐵峰.吉林大學(xué) 2010
[5]一種應(yīng)用于搜索引擎的文本聚類算法[D]. 蔡岳.北京林業(yè)大學(xué) 2010
[6]垂直搜索引擎的研究與設(shè)計(jì)[D]. 李副銘.電子科技大學(xué) 2009
[7]垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 肖亮.北京交通大學(xué) 2008
[8]垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D]. 王曉偉.浙江大學(xué) 2007
[9]基于Lucene面向主題搜索引擎的研究與設(shè)計(jì)[D]. 姜華.華東師范大學(xué) 2007
[10]林業(yè)主題搜索引擎研究[D]. 曹紅.北京林業(yè)大學(xué) 2005
本文編號(hào):3459691
【文章來(lái)源】:北京林業(yè)大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
1 引言
1.1 搜索引擎概述
1.1.1 搜索引擎發(fā)展史
1.1.2 搜索引擎的分類
1.1.3 搜索引擎現(xiàn)狀
1.1.4 搜索引擎面臨的問(wèn)題
1.2 垂直搜索引擎概述
1.2.1 垂直搜索引擎的定義
1.2.2 垂直搜索引擎的優(yōu)勢(shì)
1.2.3 垂直搜索引擎研究現(xiàn)狀
1.3 選題的目的和意義
1.4 論文組織結(jié)構(gòu)
2 搜索引擎的結(jié)構(gòu)及開源框架
2.1 搜索引擎結(jié)構(gòu)
2.1.1 搜索器
2.1.2 索引器
2.1.3 檢索器
2.1.4 用戶接口
2.1.5 垂直搜索引擎結(jié)構(gòu)
2.2 網(wǎng)絡(luò)爬蟲
2.2.1 網(wǎng)絡(luò)爬蟲概述
2.2.2 開源網(wǎng)絡(luò)爬蟲
2.3 開源搜索引擎框架Lucene
2.3.1 Lucene簡(jiǎn)介
2.3.2 Lucene結(jié)構(gòu)
3 垂直搜索關(guān)鍵技術(shù)分析
3.1 主題爬蟲技術(shù)
3.1.1 基于Web鏈接分析的算法
3.1.2 基于文本內(nèi)容的算法
3.1.3 基于本體的算法
3.1.4 本文的算法
3.2 主題詞庫(kù)構(gòu)建
3.2.1 基于關(guān)鍵詞的主題表示方法
3.2.2 基于本體的主題表示方法
3.2.3 木材主題詞庫(kù)構(gòu)建
3.3 預(yù)處理技術(shù)
3.4 分詞技術(shù)
3.4.1 基于字符串匹配的分詞
3.4.2 基于概率統(tǒng)計(jì)的分詞
3.5 索引技術(shù)
3.5.1 索引建立
3.5.2 主題相關(guān)度排序
4 木材垂直搜索引擎的實(shí)現(xiàn)
4.1 系統(tǒng)結(jié)構(gòu)和功能
4.1.1 系統(tǒng)結(jié)構(gòu)
4.1.2 系統(tǒng)功能
4.2 木材主題信息采集實(shí)現(xiàn)
4.2.1 主題爬蟲實(shí)現(xiàn)
4.2.2 主題詞庫(kù)的建立
4.2.3 預(yù)處理實(shí)現(xiàn)
4.3 索引的實(shí)現(xiàn)
4.3.1 索引建立準(zhǔn)備
4.3.2 索引數(shù)據(jù)庫(kù)實(shí)現(xiàn)
4.4 檢索的實(shí)現(xiàn)
4.4.1 檢索結(jié)構(gòu)設(shè)計(jì)
4.4.2 檢索實(shí)現(xiàn)
4.5 實(shí)驗(yàn)結(jié)果和分析
5 結(jié)論與展望
5.1 結(jié)論
5.2 展望
參考文獻(xiàn)
個(gè)人簡(jiǎn)介
導(dǎo)師簡(jiǎn)介
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于Shark-Search和Hits算法的主題爬蟲研究[J]. 羅林波,陳綺,吳清秀. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(11)
[2]一種改進(jìn)Shark-Search的多媒體主題搜索算法[J]. 楊仁廣,宋宇,孟祥增. 計(jì)算機(jī)工程與應(yīng)用. 2010(14)
[3]基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J]. 戚欣. 武漢理工大學(xué)學(xué)報(bào). 2009(03)
[4]基于概率的PageRank改進(jìn)算法[J]. 林泓,劉朋,李晶晶,龍振海. 武漢理工大學(xué)學(xué)報(bào). 2009(03)
[5]基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J]. 白坤,耿國(guó)華. 計(jì)算機(jī)應(yīng)用與軟件. 2009(01)
[6]基于領(lǐng)域本體的主題信息采集方法[J]. 鄭國(guó)良,葉飛躍,林國(guó)俊,耿冬. 計(jì)算機(jī)應(yīng)用. 2008(12)
[7]主題爬蟲的搜索策略研究[J]. 劉漢興,劉財(cái)興. 計(jì)算機(jī)工程與設(shè)計(jì). 2008(12)
[8]基于本體的主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊貞,杜習(xí)英. 科技情報(bào)開發(fā)與經(jīng)濟(jì). 2008(02)
[9]基于網(wǎng)頁(yè)分塊的Shark-Search算法[J]. 陳軍,陳竹敏. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2007(09)
[10]基于PageRank和錨文本的網(wǎng)頁(yè)排序研究[J]. 劉菁菁,林鴻飛,趙晶. 計(jì)算機(jī)工程與應(yīng)用. 2007(10)
碩士論文
[1]林業(yè)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 郭艷芬.北京林業(yè)大學(xué) 2011
[2]基于領(lǐng)域本體的主題爬蟲研究及實(shí)現(xiàn)[D]. 林碧霞.西南交通大學(xué) 2010
[3]面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D]. 張楠.西南交通大學(xué) 2010
[4]基于內(nèi)容的個(gè)性化Web信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 曹鐵峰.吉林大學(xué) 2010
[5]一種應(yīng)用于搜索引擎的文本聚類算法[D]. 蔡岳.北京林業(yè)大學(xué) 2010
[6]垂直搜索引擎的研究與設(shè)計(jì)[D]. 李副銘.電子科技大學(xué) 2009
[7]垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 肖亮.北京交通大學(xué) 2008
[8]垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D]. 王曉偉.浙江大學(xué) 2007
[9]基于Lucene面向主題搜索引擎的研究與設(shè)計(jì)[D]. 姜華.華東師范大學(xué) 2007
[10]林業(yè)主題搜索引擎研究[D]. 曹紅.北京林業(yè)大學(xué) 2005
本文編號(hào):3459691
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3459691.html
最近更新
教材專著