天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

木材垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-10-26 14:43
  互聯(lián)網(wǎng)上豐富的信息資源給人們的工作和生活帶來(lái)巨大效益和便利的同時(shí),也帶來(lái)了巨大的信息冗余。我們?cè)谑褂脗鹘y(tǒng)的通用搜索引擎時(shí),經(jīng)常會(huì)遇到這樣的問(wèn)題,為了搜索到一些專業(yè)的基礎(chǔ)知識(shí),不得不在眾多的網(wǎng)站中,花費(fèi)大量的時(shí)間去尋找,而垂直搜索引擎的出現(xiàn)為解決這類問(wèn)題提供了很好的方法。本文對(duì)垂直搜索的主題爬蟲設(shè)計(jì)和主題詞庫(kù)建立進(jìn)行了研究,并基于這些技術(shù)設(shè)計(jì)實(shí)現(xiàn)了一個(gè)木材垂直搜索引擎。本論文首先介紹了搜索引擎的歷史、現(xiàn)狀、面臨的問(wèn)題,以及垂直搜索引擎的優(yōu)勢(shì)和現(xiàn)狀;在了解搜索引擎結(jié)構(gòu)、整體工作流程的基礎(chǔ)上,分析了垂直搜索實(shí)現(xiàn)的關(guān)鍵技術(shù),重點(diǎn)探討了基于Shark算法的主題爬蟲技術(shù)和主題詞庫(kù)建立。其次,基于木材行業(yè),采用從專業(yè)書籍提取和領(lǐng)域?qū)<医ㄗh的方式構(gòu)建了一個(gè)木材主題詞庫(kù),為后續(xù)的分詞,主題相關(guān)性判斷、建立索引提供了支持。接著,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)木材垂直搜索引擎,給出了系統(tǒng)的總體結(jié)構(gòu)圖。整個(gè)系統(tǒng)的實(shí)現(xiàn)采用了定制和擴(kuò)展網(wǎng)絡(luò)爬蟲Heritrix來(lái)抓取木材主題相關(guān)的網(wǎng)頁(yè)信息,利用Lucene這個(gè)開源的搜索引擎框架為系統(tǒng)提供快速、全面的全文索引和檢索服務(wù)等一系列技術(shù)最后,對(duì)系統(tǒng)進(jìn)行測(cè)試,將搜索結(jié)果與Google、百... 

【文章來(lái)源】:北京林業(yè)大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:60 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
目錄
1 引言
    1.1 搜索引擎概述
        1.1.1 搜索引擎發(fā)展史
        1.1.2 搜索引擎的分類
        1.1.3 搜索引擎現(xiàn)狀
        1.1.4 搜索引擎面臨的問(wèn)題
    1.2 垂直搜索引擎概述
        1.2.1 垂直搜索引擎的定義
        1.2.2 垂直搜索引擎的優(yōu)勢(shì)
        1.2.3 垂直搜索引擎研究現(xiàn)狀
    1.3 選題的目的和意義
    1.4 論文組織結(jié)構(gòu)
2 搜索引擎的結(jié)構(gòu)及開源框架
    2.1 搜索引擎結(jié)構(gòu)
        2.1.1 搜索器
        2.1.2 索引器
        2.1.3 檢索器
        2.1.4 用戶接口
        2.1.5 垂直搜索引擎結(jié)構(gòu)
    2.2 網(wǎng)絡(luò)爬蟲
        2.2.1 網(wǎng)絡(luò)爬蟲概述
        2.2.2 開源網(wǎng)絡(luò)爬蟲
    2.3 開源搜索引擎框架Lucene
        2.3.1 Lucene簡(jiǎn)介
        2.3.2 Lucene結(jié)構(gòu)
3 垂直搜索關(guān)鍵技術(shù)分析
    3.1 主題爬蟲技術(shù)
        3.1.1 基于Web鏈接分析的算法
        3.1.2 基于文本內(nèi)容的算法
        3.1.3 基于本體的算法
        3.1.4 本文的算法
    3.2 主題詞庫(kù)構(gòu)建
        3.2.1 基于關(guān)鍵詞的主題表示方法
        3.2.2 基于本體的主題表示方法
        3.2.3 木材主題詞庫(kù)構(gòu)建
    3.3 預(yù)處理技術(shù)
    3.4 分詞技術(shù)
        3.4.1 基于字符串匹配的分詞
        3.4.2 基于概率統(tǒng)計(jì)的分詞
    3.5 索引技術(shù)
        3.5.1 索引建立
        3.5.2 主題相關(guān)度排序
4 木材垂直搜索引擎的實(shí)現(xiàn)
    4.1 系統(tǒng)結(jié)構(gòu)和功能
        4.1.1 系統(tǒng)結(jié)構(gòu)
        4.1.2 系統(tǒng)功能
    4.2 木材主題信息采集實(shí)現(xiàn)
        4.2.1 主題爬蟲實(shí)現(xiàn)
        4.2.2 主題詞庫(kù)的建立
        4.2.3 預(yù)處理實(shí)現(xiàn)
    4.3 索引的實(shí)現(xiàn)
        4.3.1 索引建立準(zhǔn)備
        4.3.2 索引數(shù)據(jù)庫(kù)實(shí)現(xiàn)
    4.4 檢索的實(shí)現(xiàn)
        4.4.1 檢索結(jié)構(gòu)設(shè)計(jì)
        4.4.2 檢索實(shí)現(xiàn)
    4.5 實(shí)驗(yàn)結(jié)果和分析
5 結(jié)論與展望
    5.1 結(jié)論
    5.2 展望
參考文獻(xiàn)
個(gè)人簡(jiǎn)介
導(dǎo)師簡(jiǎn)介
致謝


【參考文獻(xiàn)】:
期刊論文
[1]基于Shark-Search和Hits算法的主題爬蟲研究[J]. 羅林波,陳綺,吳清秀.  計(jì)算機(jī)技術(shù)與發(fā)展. 2010(11)
[2]一種改進(jìn)Shark-Search的多媒體主題搜索算法[J]. 楊仁廣,宋宇,孟祥增.  計(jì)算機(jī)工程與應(yīng)用. 2010(14)
[3]基于本體的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J]. 戚欣.  武漢理工大學(xué)學(xué)報(bào). 2009(03)
[4]基于概率的PageRank改進(jìn)算法[J]. 林泓,劉朋,李晶晶,龍振海.  武漢理工大學(xué)學(xué)報(bào). 2009(03)
[5]基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J]. 白坤,耿國(guó)華.  計(jì)算機(jī)應(yīng)用與軟件. 2009(01)
[6]基于領(lǐng)域本體的主題信息采集方法[J]. 鄭國(guó)良,葉飛躍,林國(guó)俊,耿冬.  計(jì)算機(jī)應(yīng)用. 2008(12)
[7]主題爬蟲的搜索策略研究[J]. 劉漢興,劉財(cái)興.  計(jì)算機(jī)工程與設(shè)計(jì). 2008(12)
[8]基于本體的主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J]. 楊貞,杜習(xí)英.  科技情報(bào)開發(fā)與經(jīng)濟(jì). 2008(02)
[9]基于網(wǎng)頁(yè)分塊的Shark-Search算法[J]. 陳軍,陳竹敏.  山東大學(xué)學(xué)報(bào)(理學(xué)版). 2007(09)
[10]基于PageRank和錨文本的網(wǎng)頁(yè)排序研究[J]. 劉菁菁,林鴻飛,趙晶.  計(jì)算機(jī)工程與應(yīng)用. 2007(10)

碩士論文
[1]林業(yè)主題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 郭艷芬.北京林業(yè)大學(xué) 2011
[2]基于領(lǐng)域本體的主題爬蟲研究及實(shí)現(xiàn)[D]. 林碧霞.西南交通大學(xué) 2010
[3]面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D]. 張楠.西南交通大學(xué) 2010
[4]基于內(nèi)容的個(gè)性化Web信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 曹鐵峰.吉林大學(xué) 2010
[5]一種應(yīng)用于搜索引擎的文本聚類算法[D]. 蔡岳.北京林業(yè)大學(xué) 2010
[6]垂直搜索引擎的研究與設(shè)計(jì)[D]. 李副銘.電子科技大學(xué) 2009
[7]垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 肖亮.北京交通大學(xué) 2008
[8]垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D]. 王曉偉.浙江大學(xué) 2007
[9]基于Lucene面向主題搜索引擎的研究與設(shè)計(jì)[D]. 姜華.華東師范大學(xué) 2007
[10]林業(yè)主題搜索引擎研究[D]. 曹紅.北京林業(yè)大學(xué) 2005



本文編號(hào):3459691

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3459691.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ddf9f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com