基于Lucene.net的站內(nèi)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-24 12:51
目前互聯(lián)網(wǎng)快速發(fā)展,各類網(wǎng)絡(luò)應(yīng)用快速增加,網(wǎng)絡(luò)信息呈爆炸性增長(zhǎng)。為提高生產(chǎn)效率和生活便利,使信息傳播更加快捷,需要一款信息檢索工具快速定位用戶感興趣的信息。誠(chéng)然,當(dāng)前網(wǎng)絡(luò)上已經(jīng)有很多門(mén)戶網(wǎng)站和像百度、必應(yīng)等的搜索引擎幫助人們檢索信息,但這并不能完全滿足用戶的日常需求。特別是對(duì)于某些局域網(wǎng)、校園網(wǎng)、大型企業(yè)園區(qū)。這些組織涉及部門(mén)多、信息量大、信息私密性高,并且信息的發(fā)布往往缺乏一個(gè)統(tǒng)一管理,所以他們更需要一個(gè)好的信息搜索切入口,當(dāng)站內(nèi)信息隨著時(shí)間積累增多,員工、學(xué)生或外來(lái)訪問(wèn)者便需要在網(wǎng)站中逐頁(yè)尋找相關(guān)信息或者文件,造成極大不變。因此在本次論文中,本人針對(duì)這個(gè)具體問(wèn)題進(jìn)行了闡述,并提出解決方案。本文主要是研究并設(shè)計(jì)開(kāi)發(fā)一個(gè)針對(duì)單位內(nèi)部的站內(nèi)搜索引擎,主要針對(duì)處于封閉或半封閉的網(wǎng)站群。從零開(kāi)始介紹搜索引擎的基本架構(gòu)及其中的關(guān)鍵技術(shù),如爬蟲(chóng)的原理與實(shí)現(xiàn),如何構(gòu)建索引目錄,分詞技術(shù)的主要方法、搜索排序模型的構(gòu)建等,接著使用C#語(yǔ)言,并結(jié)合關(guān)系數(shù)據(jù)庫(kù)技術(shù)、搜索引擎框架Lucene.net、前端頁(yè)面技術(shù)構(gòu)建一個(gè)完整的站內(nèi)搜索引擎。開(kāi)發(fā)的內(nèi)容主要包含兩大模塊,一個(gè)是數(shù)據(jù)采集模塊,主要包含網(wǎng)絡(luò)爬蟲(chóng)、信...
【文章來(lái)源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:88 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
搜索引擎結(jié)構(gòu)圖
圖 2-2 網(wǎng)絡(luò)爬蟲(chóng)原理圖上圖是網(wǎng)絡(luò)爬蟲(chóng)的概覽圖,它大致描述了網(wǎng)絡(luò)爬蟲(chóng)的運(yùn)行原理。當(dāng)然,現(xiàn)實(shí)中的爬蟲(chóng)不會(huì)是這么簡(jiǎn)單。它還涉及到待爬取隊(duì)列構(gòu)造、防重復(fù)爬取機(jī)制、網(wǎng)頁(yè)內(nèi)容提取線程并行運(yùn)行等方面技術(shù)。本人將在接下來(lái)的章節(jié)中進(jìn)行相關(guān)描述。2.2.3 信息存儲(chǔ)網(wǎng)絡(luò)爬蟲(chóng)爬取完信息后一般還需要進(jìn)行信息保存,信息保存有以下兩類。一是直接保存成文檔形式。將爬取內(nèi)容以磁盤(pán)文件形式放在硬盤(pán)上,等待后續(xù)的。但是這種情況只適用于對(duì)特定網(wǎng)站進(jìn)行整站下載。若爬取的站點(diǎn)比較多,這樣松放的文件形式并不利于信息的存儲(chǔ)或者查找。因此我們可以設(shè)計(jì)一種 xml 格式的大來(lái)保存文件內(nèi)容。二是保存在數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)是一個(gè)比較好的信息存儲(chǔ)環(huán)境,它可擴(kuò)展性強(qiáng)、易護(hù)。當(dāng)前用于網(wǎng)絡(luò)爬蟲(chóng)信息存儲(chǔ)的數(shù)據(jù)庫(kù)主要分開(kāi)兩大類型。一個(gè)是傳統(tǒng)的關(guān)系數(shù)
圖 2-3 分詞流程圖整個(gè)分詞的流程(中英文適用),例如當(dāng)用戶輸入了“偉大英雄霍對(duì)照詞典在 trie 樹(shù)上匹配句子中的每一個(gè)單詞,每一次都由字頭面相應(yīng)的最長(zhǎng)單詞,先是“偉大/英雄/霍去病”,接著“偉/大英雄/霍單詞保存下來(lái)。率模型分詞法我們開(kāi)始介紹基于概率模型分詞方法的設(shè)計(jì)思想。針對(duì)自然語(yǔ)言用的就是 HMM,即隱馬爾可夫模型。
【參考文獻(xiàn)】:
期刊論文
[1]基于lucene.net的搜索引擎在學(xué)校網(wǎng)站群系統(tǒng)中的應(yīng)用[J]. 俞靚亮. 信息技術(shù)與信息化. 2016(09)
[2]基于C#的網(wǎng)絡(luò)爬蟲(chóng)搜索引擎的設(shè)計(jì)[J]. 文竹. 計(jì)算機(jī)光盤(pán)軟件與應(yīng)用. 2013(20)
[3]基于Lucene.net全文檢索在文檔管理中的應(yīng)用[J]. 李文江,陳詩(shī)琴. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2010(11)
[4]Web搜索引擎技術(shù)綜述[J]. 宋春陽(yáng),金可音. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2008(05)
碩士論文
[1]網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 田丹.北京交通大學(xué) 2015
[2]基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊彬.電子科技大學(xué) 2014
[3]基于Lucene.NET的網(wǎng)絡(luò)信息搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 杜寧寧.吉林大學(xué) 2014
[4]基于.NET的有色冶金信息化服務(wù)平臺(tái)及一種網(wǎng)絡(luò)爬蟲(chóng)的研究與實(shí)現(xiàn)[D]. 曹建坤.江西理工大學(xué) 2013
[5]網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的研究與實(shí)現(xiàn)[D]. 趙茉莉.電子科技大學(xué) 2013
[6]基于Lucene.Net的全文檢索研究與應(yīng)用[D]. 武毅.國(guó)防科學(xué)技術(shù)大學(xué) 2011
[7]Lucene與中文分詞技術(shù)的研究及應(yīng)用[D]. 胡鵬飛.北京交通大學(xué) 2010
[8]搜索引擎中主題網(wǎng)絡(luò)爬蟲(chóng)的研究與設(shè)計(jì)[D]. 賀晟.安徽大學(xué) 2010
[9]基于LUCENE的搜索引擎研究與實(shí)現(xiàn)[D]. 高磊.武漢理工大學(xué) 2007
[10]分布式網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究與實(shí)現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學(xué) 2006
本文編號(hào):3097755
【文章來(lái)源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:88 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
搜索引擎結(jié)構(gòu)圖
圖 2-2 網(wǎng)絡(luò)爬蟲(chóng)原理圖上圖是網(wǎng)絡(luò)爬蟲(chóng)的概覽圖,它大致描述了網(wǎng)絡(luò)爬蟲(chóng)的運(yùn)行原理。當(dāng)然,現(xiàn)實(shí)中的爬蟲(chóng)不會(huì)是這么簡(jiǎn)單。它還涉及到待爬取隊(duì)列構(gòu)造、防重復(fù)爬取機(jī)制、網(wǎng)頁(yè)內(nèi)容提取線程并行運(yùn)行等方面技術(shù)。本人將在接下來(lái)的章節(jié)中進(jìn)行相關(guān)描述。2.2.3 信息存儲(chǔ)網(wǎng)絡(luò)爬蟲(chóng)爬取完信息后一般還需要進(jìn)行信息保存,信息保存有以下兩類。一是直接保存成文檔形式。將爬取內(nèi)容以磁盤(pán)文件形式放在硬盤(pán)上,等待后續(xù)的。但是這種情況只適用于對(duì)特定網(wǎng)站進(jìn)行整站下載。若爬取的站點(diǎn)比較多,這樣松放的文件形式并不利于信息的存儲(chǔ)或者查找。因此我們可以設(shè)計(jì)一種 xml 格式的大來(lái)保存文件內(nèi)容。二是保存在數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)是一個(gè)比較好的信息存儲(chǔ)環(huán)境,它可擴(kuò)展性強(qiáng)、易護(hù)。當(dāng)前用于網(wǎng)絡(luò)爬蟲(chóng)信息存儲(chǔ)的數(shù)據(jù)庫(kù)主要分開(kāi)兩大類型。一個(gè)是傳統(tǒng)的關(guān)系數(shù)
圖 2-3 分詞流程圖整個(gè)分詞的流程(中英文適用),例如當(dāng)用戶輸入了“偉大英雄霍對(duì)照詞典在 trie 樹(shù)上匹配句子中的每一個(gè)單詞,每一次都由字頭面相應(yīng)的最長(zhǎng)單詞,先是“偉大/英雄/霍去病”,接著“偉/大英雄/霍單詞保存下來(lái)。率模型分詞法我們開(kāi)始介紹基于概率模型分詞方法的設(shè)計(jì)思想。針對(duì)自然語(yǔ)言用的就是 HMM,即隱馬爾可夫模型。
【參考文獻(xiàn)】:
期刊論文
[1]基于lucene.net的搜索引擎在學(xué)校網(wǎng)站群系統(tǒng)中的應(yīng)用[J]. 俞靚亮. 信息技術(shù)與信息化. 2016(09)
[2]基于C#的網(wǎng)絡(luò)爬蟲(chóng)搜索引擎的設(shè)計(jì)[J]. 文竹. 計(jì)算機(jī)光盤(pán)軟件與應(yīng)用. 2013(20)
[3]基于Lucene.net全文檢索在文檔管理中的應(yīng)用[J]. 李文江,陳詩(shī)琴. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2010(11)
[4]Web搜索引擎技術(shù)綜述[J]. 宋春陽(yáng),金可音. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2008(05)
碩士論文
[1]網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 田丹.北京交通大學(xué) 2015
[2]基于Lucene.NET的局域網(wǎng)全文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊彬.電子科技大學(xué) 2014
[3]基于Lucene.NET的網(wǎng)絡(luò)信息搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 杜寧寧.吉林大學(xué) 2014
[4]基于.NET的有色冶金信息化服務(wù)平臺(tái)及一種網(wǎng)絡(luò)爬蟲(chóng)的研究與實(shí)現(xiàn)[D]. 曹建坤.江西理工大學(xué) 2013
[5]網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的研究與實(shí)現(xiàn)[D]. 趙茉莉.電子科技大學(xué) 2013
[6]基于Lucene.Net的全文檢索研究與應(yīng)用[D]. 武毅.國(guó)防科學(xué)技術(shù)大學(xué) 2011
[7]Lucene與中文分詞技術(shù)的研究及應(yīng)用[D]. 胡鵬飛.北京交通大學(xué) 2010
[8]搜索引擎中主題網(wǎng)絡(luò)爬蟲(chóng)的研究與設(shè)計(jì)[D]. 賀晟.安徽大學(xué) 2010
[9]基于LUCENE的搜索引擎研究與實(shí)現(xiàn)[D]. 高磊.武漢理工大學(xué) 2007
[10]分布式網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究與實(shí)現(xiàn)[D]. 蘇旋.哈爾濱工業(yè)大學(xué) 2006
本文編號(hào):3097755
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3097755.html
最近更新
教材專著