基于Lucene.net的站內(nèi)搜索引擎設(shè)計與實現(xiàn)
發(fā)布時間:2021-03-24 12:51
目前互聯(lián)網(wǎng)快速發(fā)展,各類網(wǎng)絡(luò)應用快速增加,網(wǎng)絡(luò)信息呈爆炸性增長。為提高生產(chǎn)效率和生活便利,使信息傳播更加快捷,需要一款信息檢索工具快速定位用戶感興趣的信息。誠然,當前網(wǎng)絡(luò)上已經(jīng)有很多門戶網(wǎng)站和像百度、必應等的搜索引擎幫助人們檢索信息,但這并不能完全滿足用戶的日常需求。特別是對于某些局域網(wǎng)、校園網(wǎng)、大型企業(yè)園區(qū)。這些組織涉及部門多、信息量大、信息私密性高,并且信息的發(fā)布往往缺乏一個統(tǒng)一管理,所以他們更需要一個好的信息搜索切入口,當站內(nèi)信息隨著時間積累增多,員工、學生或外來訪問者便需要在網(wǎng)站中逐頁尋找相關(guān)信息或者文件,造成極大不變。因此在本次論文中,本人針對這個具體問題進行了闡述,并提出解決方案。本文主要是研究并設(shè)計開發(fā)一個針對單位內(nèi)部的站內(nèi)搜索引擎,主要針對處于封閉或半封閉的網(wǎng)站群。從零開始介紹搜索引擎的基本架構(gòu)及其中的關(guān)鍵技術(shù),如爬蟲的原理與實現(xiàn),如何構(gòu)建索引目錄,分詞技術(shù)的主要方法、搜索排序模型的構(gòu)建等,接著使用C#語言,并結(jié)合關(guān)系數(shù)據(jù)庫技術(shù)、搜索引擎框架Lucene.net、前端頁面技術(shù)構(gòu)建一個完整的站內(nèi)搜索引擎。開發(fā)的內(nèi)容主要包含兩大模塊,一個是數(shù)據(jù)采集模塊,主要包含網(wǎng)絡(luò)爬蟲、信...
【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:88 頁
【學位級別】:碩士
【部分圖文】:
搜索引擎結(jié)構(gòu)圖
圖 2-2 網(wǎng)絡(luò)爬蟲原理圖上圖是網(wǎng)絡(luò)爬蟲的概覽圖,它大致描述了網(wǎng)絡(luò)爬蟲的運行原理。當然,現(xiàn)實中的爬蟲不會是這么簡單。它還涉及到待爬取隊列構(gòu)造、防重復爬取機制、網(wǎng)頁內(nèi)容提取線程并行運行等方面技術(shù)。本人將在接下來的章節(jié)中進行相關(guān)描述。2.2.3 信息存儲網(wǎng)絡(luò)爬蟲爬取完信息后一般還需要進行信息保存,信息保存有以下兩類。一是直接保存成文檔形式。將爬取內(nèi)容以磁盤文件形式放在硬盤上,等待后續(xù)的。但是這種情況只適用于對特定網(wǎng)站進行整站下載。若爬取的站點比較多,這樣松放的文件形式并不利于信息的存儲或者查找。因此我們可以設(shè)計一種 xml 格式的大來保存文件內(nèi)容。二是保存在數(shù)據(jù)庫中。數(shù)據(jù)庫是一個比較好的信息存儲環(huán)境,它可擴展性強、易護。當前用于網(wǎng)絡(luò)爬蟲信息存儲的數(shù)據(jù)庫主要分開兩大類型。一個是傳統(tǒng)的關(guān)系數(shù)
圖 2-3 分詞流程圖整個分詞的流程(中英文適用),例如當用戶輸入了“偉大英雄霍對照詞典在 trie 樹上匹配句子中的每一個單詞,每一次都由字頭面相應的最長單詞,先是“偉大/英雄/霍去病”,接著“偉/大英雄/霍單詞保存下來。率模型分詞法我們開始介紹基于概率模型分詞方法的設(shè)計思想。針對自然語言用的就是 HMM,即隱馬爾可夫模型。
【參考文獻】:
期刊論文
[1]基于lucene.net的搜索引擎在學校網(wǎng)站群系統(tǒng)中的應用[J]. 俞靚亮. 信息技術(shù)與信息化. 2016(09)
[2]基于C#的網(wǎng)絡(luò)爬蟲搜索引擎的設(shè)計[J]. 文竹. 計算機光盤軟件與應用. 2013(20)
[3]基于Lucene.net全文檢索在文檔管理中的應用[J]. 李文江,陳詩琴. 現(xiàn)代圖書情報技術(shù). 2010(11)
[4]Web搜索引擎技術(shù)綜述[J]. 宋春陽,金可音. 現(xiàn)代計算機(專業(yè)版). 2008(05)
碩士論文
[1]網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)[D]. 田丹.北京交通大學 2015
[2]基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計與實現(xiàn)[D]. 楊彬.電子科技大學 2014
[3]基于Lucene.NET的網(wǎng)絡(luò)信息搜索系統(tǒng)的設(shè)計與實現(xiàn)[D]. 杜寧寧.吉林大學 2014
[4]基于.NET的有色冶金信息化服務平臺及一種網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D]. 曹建坤.江西理工大學 2013
[5]網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D]. 趙茉莉.電子科技大學 2013
[6]基于Lucene.Net的全文檢索研究與應用[D]. 武毅.國防科學技術(shù)大學 2011
[7]Lucene與中文分詞技術(shù)的研究及應用[D]. 胡鵬飛.北京交通大學 2010
[8]搜索引擎中主題網(wǎng)絡(luò)爬蟲的研究與設(shè)計[D]. 賀晟.安徽大學 2010
[9]基于LUCENE的搜索引擎研究與實現(xiàn)[D]. 高磊.武漢理工大學 2007
[10]分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學 2006
本文編號:3097755
【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:88 頁
【學位級別】:碩士
【部分圖文】:
搜索引擎結(jié)構(gòu)圖
圖 2-2 網(wǎng)絡(luò)爬蟲原理圖上圖是網(wǎng)絡(luò)爬蟲的概覽圖,它大致描述了網(wǎng)絡(luò)爬蟲的運行原理。當然,現(xiàn)實中的爬蟲不會是這么簡單。它還涉及到待爬取隊列構(gòu)造、防重復爬取機制、網(wǎng)頁內(nèi)容提取線程并行運行等方面技術(shù)。本人將在接下來的章節(jié)中進行相關(guān)描述。2.2.3 信息存儲網(wǎng)絡(luò)爬蟲爬取完信息后一般還需要進行信息保存,信息保存有以下兩類。一是直接保存成文檔形式。將爬取內(nèi)容以磁盤文件形式放在硬盤上,等待后續(xù)的。但是這種情況只適用于對特定網(wǎng)站進行整站下載。若爬取的站點比較多,這樣松放的文件形式并不利于信息的存儲或者查找。因此我們可以設(shè)計一種 xml 格式的大來保存文件內(nèi)容。二是保存在數(shù)據(jù)庫中。數(shù)據(jù)庫是一個比較好的信息存儲環(huán)境,它可擴展性強、易護。當前用于網(wǎng)絡(luò)爬蟲信息存儲的數(shù)據(jù)庫主要分開兩大類型。一個是傳統(tǒng)的關(guān)系數(shù)
圖 2-3 分詞流程圖整個分詞的流程(中英文適用),例如當用戶輸入了“偉大英雄霍對照詞典在 trie 樹上匹配句子中的每一個單詞,每一次都由字頭面相應的最長單詞,先是“偉大/英雄/霍去病”,接著“偉/大英雄/霍單詞保存下來。率模型分詞法我們開始介紹基于概率模型分詞方法的設(shè)計思想。針對自然語言用的就是 HMM,即隱馬爾可夫模型。
【參考文獻】:
期刊論文
[1]基于lucene.net的搜索引擎在學校網(wǎng)站群系統(tǒng)中的應用[J]. 俞靚亮. 信息技術(shù)與信息化. 2016(09)
[2]基于C#的網(wǎng)絡(luò)爬蟲搜索引擎的設(shè)計[J]. 文竹. 計算機光盤軟件與應用. 2013(20)
[3]基于Lucene.net全文檢索在文檔管理中的應用[J]. 李文江,陳詩琴. 現(xiàn)代圖書情報技術(shù). 2010(11)
[4]Web搜索引擎技術(shù)綜述[J]. 宋春陽,金可音. 現(xiàn)代計算機(專業(yè)版). 2008(05)
碩士論文
[1]網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)[D]. 田丹.北京交通大學 2015
[2]基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計與實現(xiàn)[D]. 楊彬.電子科技大學 2014
[3]基于Lucene.NET的網(wǎng)絡(luò)信息搜索系統(tǒng)的設(shè)計與實現(xiàn)[D]. 杜寧寧.吉林大學 2014
[4]基于.NET的有色冶金信息化服務平臺及一種網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D]. 曹建坤.江西理工大學 2013
[5]網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D]. 趙茉莉.電子科技大學 2013
[6]基于Lucene.Net的全文檢索研究與應用[D]. 武毅.國防科學技術(shù)大學 2011
[7]Lucene與中文分詞技術(shù)的研究及應用[D]. 胡鵬飛.北京交通大學 2010
[8]搜索引擎中主題網(wǎng)絡(luò)爬蟲的研究與設(shè)計[D]. 賀晟.安徽大學 2010
[9]基于LUCENE的搜索引擎研究與實現(xiàn)[D]. 高磊.武漢理工大學 2007
[10]分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學 2006
本文編號:3097755
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3097755.html
最近更新
教材專著