基于Lucene數(shù)碼產(chǎn)品垂直搜索引擎系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-11-22 03:54
隨著互聯(lián)網(wǎng)上信息日新月異的爆炸式增長,如何獲取更加準(zhǔn)確、更加詳細(xì)、更加深層的專業(yè)資源,成為對搜索引擎技術(shù)提出更高的要求。因此,面向?qū)I(yè)主題的垂直搜索引擎系統(tǒng)應(yīng)運(yùn)而生;與此同時(shí),數(shù)碼產(chǎn)品為豐富人們的生活注入新的血液,而網(wǎng)上團(tuán)購數(shù)碼產(chǎn)品也成了當(dāng)下流行的消費(fèi)方式。在如此大市場與技術(shù)結(jié)合的研究背景下,運(yùn)用了多個(gè)垂直搜索相關(guān)的技術(shù)相結(jié)合,將國內(nèi)互聯(lián)網(wǎng)上知名的數(shù)碼產(chǎn)品網(wǎng)站中的數(shù)碼產(chǎn)品信息內(nèi)容作為采集資源對象,在開源的全文檢索工具軟件包Lucene的平臺上,研究和實(shí)現(xiàn)了對數(shù)碼產(chǎn)品信息具有專業(yè)化搜索功能的搜索引擎。本文除了詳細(xì)介紹了垂直搜索引擎的工作原理、以及Lucene核心平臺技術(shù)外,還介紹了包括了3個(gè)構(gòu)造搜索引擎系統(tǒng)息息相關(guān)的關(guān)鍵技術(shù)應(yīng)用:包括聚焦爬蟲的工作原理以及Heritrix爬蟲技術(shù),在傳統(tǒng)爬行策略分析下提出基于爬蟲挑食爬行策略進(jìn)行分析應(yīng)用,在該策略中引入了幾個(gè)權(quán)重參數(shù)如鏈接的歡迎度、重要度和最短路徑查找實(shí)現(xiàn)算法;介紹了Web網(wǎng)頁信息提取方法步驟,以及常見的方法分類,最后提出基于數(shù)碼產(chǎn)品設(shè)計(jì)規(guī)則提取方法的分析,研究中針對主題大型網(wǎng)站5個(gè)設(shè)計(jì)規(guī)則結(jié)構(gòu)進(jìn)行分析,并針對這幾個(gè)設(shè)計(jì)規(guī)則提出內(nèi)容抽取綜...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
Lucene系統(tǒng)的結(jié)構(gòu)組織
圖 2-3 Lucene 索引管理流程圖為了實(shí)現(xiàn)上述管理索引的過程,Lucene提供了五個(gè)基礎(chǔ)的類,它們分別是DoeumentField,Indexwriter,Analyzer,Directory。下面分別介紹一下這五個(gè)類的用途[15]:(l)DoeumentLucene 不對任何物理文件建立索引,而只對 Document 對象建立,因此 Documen對象被稱為 Lucene 的文檔。它是索引器可以直接添加的對象。每個(gè)索引可以包含多個(gè)不同的文檔,每個(gè)文檔又管理了數(shù)目不等的域集合。這里的文檔是一個(gè)邏輯概念,是Lucene 索引對索引項(xiàng)的一級管理框架.(2)FieldLucene 的 Field(域)是 Document 對象的基本組成單位。在實(shí)際中每個(gè)域?qū)?yīng) Field 類的實(shí)例來實(shí)現(xiàn)。每個(gè)域內(nèi)存儲了實(shí)際的索引文本數(shù)據(jù),這些文本數(shù)據(jù)在內(nèi)部
圖 3-4 Heritrix 整體架構(gòu)圖體來說,Heritrix可分成三個(gè)部分[5]:Web 可管理控制臺 。 可以在界面設(shè)置運(yùn)行時(shí)使用哪個(gè)模塊 。 Heritrix 也因?yàn)楹玫墓芾斫缑妫缘玫搅藦V泛的應(yīng)用。 Web 管理界面默認(rèn)運(yùn)行Heritrix 包自帶的 Java HTTP 服務(wù)器 Jetty 中,但也可以作為 Web 應(yīng)用運(yùn)在 Tomcat 或 Resin 等 Web 服務(wù)器中。操作者可以通過選擇 Crawler 命令來作控制臺。
【參考文獻(xiàn)】:
期刊論文
[1]基于序列比對的動態(tài)Web信息抽取算法[J]. 趙剛,郭東偉,李丹. 吉林大學(xué)學(xué)報(bào)(理學(xué)版). 2010(03)
[2]XML的DOM研究與應(yīng)用[J]. 曹步文,劉先鋒,周忠華. 計(jì)算機(jī)時(shí)代. 2008(02)
[3]Web數(shù)據(jù)抽取技術(shù)研究進(jìn)展[J]. 張成洪,古曉洪,白延紅. 計(jì)算機(jī)科學(xué). 2004(02)
[4]搜索引擎Robot技術(shù)實(shí)現(xiàn)的原理分析[J]. 洪光宗,王皓. 現(xiàn)代圖書情報(bào)技術(shù). 2002(01)
[5]智能搜索引擎技術(shù)的研究與發(fā)展[J]. 張曉剛,李明樹. 計(jì)算機(jī)工程與應(yīng)用. 2001(24)
[6]WWW信息搜索技術(shù)研究[J]. 陳苒,董占球. 計(jì)算機(jī)工程與應(yīng)用. 2001(14)
碩士論文
[1]垂直搜索引擎技術(shù)研究與應(yīng)用[D]. 劉彤.西安建筑科技大學(xué) 2008
本文編號:3510882
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
Lucene系統(tǒng)的結(jié)構(gòu)組織
圖 2-3 Lucene 索引管理流程圖為了實(shí)現(xiàn)上述管理索引的過程,Lucene提供了五個(gè)基礎(chǔ)的類,它們分別是DoeumentField,Indexwriter,Analyzer,Directory。下面分別介紹一下這五個(gè)類的用途[15]:(l)DoeumentLucene 不對任何物理文件建立索引,而只對 Document 對象建立,因此 Documen對象被稱為 Lucene 的文檔。它是索引器可以直接添加的對象。每個(gè)索引可以包含多個(gè)不同的文檔,每個(gè)文檔又管理了數(shù)目不等的域集合。這里的文檔是一個(gè)邏輯概念,是Lucene 索引對索引項(xiàng)的一級管理框架.(2)FieldLucene 的 Field(域)是 Document 對象的基本組成單位。在實(shí)際中每個(gè)域?qū)?yīng) Field 類的實(shí)例來實(shí)現(xiàn)。每個(gè)域內(nèi)存儲了實(shí)際的索引文本數(shù)據(jù),這些文本數(shù)據(jù)在內(nèi)部
圖 3-4 Heritrix 整體架構(gòu)圖體來說,Heritrix可分成三個(gè)部分[5]:Web 可管理控制臺 。 可以在界面設(shè)置運(yùn)行時(shí)使用哪個(gè)模塊 。 Heritrix 也因?yàn)楹玫墓芾斫缑妫缘玫搅藦V泛的應(yīng)用。 Web 管理界面默認(rèn)運(yùn)行Heritrix 包自帶的 Java HTTP 服務(wù)器 Jetty 中,但也可以作為 Web 應(yīng)用運(yùn)在 Tomcat 或 Resin 等 Web 服務(wù)器中。操作者可以通過選擇 Crawler 命令來作控制臺。
【參考文獻(xiàn)】:
期刊論文
[1]基于序列比對的動態(tài)Web信息抽取算法[J]. 趙剛,郭東偉,李丹. 吉林大學(xué)學(xué)報(bào)(理學(xué)版). 2010(03)
[2]XML的DOM研究與應(yīng)用[J]. 曹步文,劉先鋒,周忠華. 計(jì)算機(jī)時(shí)代. 2008(02)
[3]Web數(shù)據(jù)抽取技術(shù)研究進(jìn)展[J]. 張成洪,古曉洪,白延紅. 計(jì)算機(jī)科學(xué). 2004(02)
[4]搜索引擎Robot技術(shù)實(shí)現(xiàn)的原理分析[J]. 洪光宗,王皓. 現(xiàn)代圖書情報(bào)技術(shù). 2002(01)
[5]智能搜索引擎技術(shù)的研究與發(fā)展[J]. 張曉剛,李明樹. 計(jì)算機(jī)工程與應(yīng)用. 2001(24)
[6]WWW信息搜索技術(shù)研究[J]. 陳苒,董占球. 計(jì)算機(jī)工程與應(yīng)用. 2001(14)
碩士論文
[1]垂直搜索引擎技術(shù)研究與應(yīng)用[D]. 劉彤.西安建筑科技大學(xué) 2008
本文編號:3510882
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3510882.html
最近更新
教材專著