垂直搜索引擎在校園網(wǎng)中的研究與應用
發(fā)布時間:2021-04-08 12:16
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,從海量數(shù)據(jù)信息中搜索有效信息已經成為一個重要的問題。目前雖然己經有google、百度這些優(yōu)秀的通用搜索引擎,但這些搜索引擎對于局域網(wǎng)內信息無法完全、準確的獲取,同時信息的實時性也無法保證,所以它們并不能很好的準確檢索具有行業(yè)背景的信息。目前高校校園網(wǎng)的建設已經比較成熟,校園網(wǎng)內部的公有信息大幅增長,例如本科及研究生的招生及宣傳信息。如果使用通用搜索引擎,用戶無法獲取較為有效的校園網(wǎng)相關信息。因此,為了提高信息檢索的效率,本文設計并實現(xiàn)了適用于高校校園網(wǎng)的垂直搜索引擎系統(tǒng)。本文研究并實現(xiàn)了一個應用于高校校園網(wǎng)的垂直搜索引擎系統(tǒng)。首先闡述了通用搜索引擎的工作原理和主要組成部分,進而分析了垂直搜索引擎的實現(xiàn)原理。論文設計并完成了網(wǎng)頁抓取模塊、預處理模塊、索引和查詢模塊等搜索引擎系統(tǒng)的4個核心模塊。其中在網(wǎng)頁抓取模塊中實現(xiàn)了網(wǎng)頁下載以及將已訪問過的URL過濾的功能;在預處理模塊中比較了兩種方案,選擇較優(yōu)的一種進行了網(wǎng)頁去噪,同時完成了中文分詞、網(wǎng)頁去重工作。針對Lucene中文分詞效果比較弱這一特點,對中文分詞技術進行了研究,針對最大匹配法的缺陷對中文分詞進行了改進,提高...
【文章來源】:西安科技大學陜西省
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
本系統(tǒng)垂直搜索引擎的總體設計框架
Lucene組織結構圖
動作稱為爬取,下載網(wǎng)頁是一個能夠自動采集網(wǎng)頁據(jù)網(wǎng)頁上大量存在的超鏈的內容,找到在該網(wǎng)頁一個網(wǎng)頁,這樣一直循環(huán)頁的自動下載;ヂ(lián)網(wǎng)中,網(wǎng)頁之間的鏈么它將會遇到無數(shù)多的能“壯士一去兮不復還略是是基于離散數(shù)學中
【參考文獻】:
期刊論文
[1]基于Bloom Filter的大規(guī)模網(wǎng)頁去重策略研究[J]. 丁振國,吳寶貴,辛友強. 現(xiàn)代圖書情報技術. 2008(03)
[2]WNBTE網(wǎng)頁正文抽取方法研究[J]. 李綱,戴強斌. 情報科學. 2008(03)
[3]基于WPF的UI自動化測試[J]. 張永革. 軟件世界. 2007(18)
[4]搜索引擎綜合分析[J]. 方志堅,張瑞林,童小素. 計算機工程與設計. 2007(16)
[5]新一代搜索引擎的智能化特征及技術進展[J]. 喬東枝. 高校圖書館工作. 2007(04)
[6]具有時間反饋的PageRank改進算法[J]. 戚華春,黃德才,鄭月鋒. 浙江工業(yè)大學學報. 2005(03)
[7]基于信息挖掘的智能決策支持系統(tǒng)的結構設計[J]. 蘇占東,楊炳儒,游福成. 計算機應用研究. 2005(03)
碩士論文
[1]垂直搜索引擎關鍵技術研究及應用[D]. 王玉輝.華北電力大學(河北) 2009
[2]中文自動分詞法在全文檢索中的研究及應用[D]. 劉婷.南京航空航天大學 2007
[3]面向特定領域的專業(yè)搜索引擎的架構與實現(xiàn)方法[D]. 胡曉博.哈爾濱工程大學 2007
[4]分布式Web挖掘與搜索的研究與實現(xiàn)[D]. 姚勇.西安電子科技大學 2006
[5]搜索引擎及其相關性排序研究[D]. 王亮.武漢大學 2004
本文編號:3125534
【文章來源】:西安科技大學陜西省
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
本系統(tǒng)垂直搜索引擎的總體設計框架
Lucene組織結構圖
動作稱為爬取,下載網(wǎng)頁是一個能夠自動采集網(wǎng)頁據(jù)網(wǎng)頁上大量存在的超鏈的內容,找到在該網(wǎng)頁一個網(wǎng)頁,這樣一直循環(huán)頁的自動下載;ヂ(lián)網(wǎng)中,網(wǎng)頁之間的鏈么它將會遇到無數(shù)多的能“壯士一去兮不復還略是是基于離散數(shù)學中
【參考文獻】:
期刊論文
[1]基于Bloom Filter的大規(guī)模網(wǎng)頁去重策略研究[J]. 丁振國,吳寶貴,辛友強. 現(xiàn)代圖書情報技術. 2008(03)
[2]WNBTE網(wǎng)頁正文抽取方法研究[J]. 李綱,戴強斌. 情報科學. 2008(03)
[3]基于WPF的UI自動化測試[J]. 張永革. 軟件世界. 2007(18)
[4]搜索引擎綜合分析[J]. 方志堅,張瑞林,童小素. 計算機工程與設計. 2007(16)
[5]新一代搜索引擎的智能化特征及技術進展[J]. 喬東枝. 高校圖書館工作. 2007(04)
[6]具有時間反饋的PageRank改進算法[J]. 戚華春,黃德才,鄭月鋒. 浙江工業(yè)大學學報. 2005(03)
[7]基于信息挖掘的智能決策支持系統(tǒng)的結構設計[J]. 蘇占東,楊炳儒,游福成. 計算機應用研究. 2005(03)
碩士論文
[1]垂直搜索引擎關鍵技術研究及應用[D]. 王玉輝.華北電力大學(河北) 2009
[2]中文自動分詞法在全文檢索中的研究及應用[D]. 劉婷.南京航空航天大學 2007
[3]面向特定領域的專業(yè)搜索引擎的架構與實現(xiàn)方法[D]. 胡曉博.哈爾濱工程大學 2007
[4]分布式Web挖掘與搜索的研究與實現(xiàn)[D]. 姚勇.西安電子科技大學 2006
[5]搜索引擎及其相關性排序研究[D]. 王亮.武漢大學 2004
本文編號:3125534
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3125534.html