基于Nutch的垂直搜索引擎的設計和實現(xiàn)

發(fā)布時間：2016-11-28 13:42

本文關(guān)鍵詞：基于Nutch的垂直搜索引擎的設計和實現(xiàn)，由筆耕文化傳播整理發(fā)布。

計算機工程與設計ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ

ａｎｄＤｅｓｉｇｎ

２０１１，Ｖ０１．３２，Ｎｏ．２

５３９

基于Ｎｕｔｃｈ的垂直搜索引擎的設計和實現(xiàn)
邵秀麗，
劉彬，張

濤

（南開大學信息技術(shù)科學學院，天津３０００

７１）
摘要：為了提高搜索引擎的主題傾向性和準確率，在Ｎｕｔｃｈ平臺上實現(xiàn)了帶有中文分詞插件的垂直搜索引擎，給出了改進后引擎的系統(tǒng)功能和體系結(jié)構(gòu)，并從用例角度分析了系統(tǒng)的功能，介紹了基于該體系結(jié)構(gòu)實現(xiàn)的港口物流信息垂直搜索引擎以及和一般引擎運行情況的比較．實驗結(jié)果表明，這些改進提高了主題判別的準確度和效率，使信息的定位和查找更加精確，減少了不相關(guān)信息的干擾，并提高了系統(tǒng)對于互聯(lián)網(wǎng)復雜環(huán)境的處理能力．關(guān)鍵詞：Ｎｕｔｃｈ平臺；垂直搜索；體系結(jié)構(gòu)：用例分析；主題搜索中圖法分類號：ＴＰ３１１．５２文獻標識碼：Ａ文章編號：１０００．７０２４（２０１Ｉ）０２．０５３９．０４

Ｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｖｅｒｔｉｃａｌｓｅａｒｃｈｅｎｇｉｎｅｂａｓｅｄ
ＳＨＡＯＸｉｕ．１ｉ．ＬＩｕＢｉｎ，ＺＨＡＮＧＴａｏ

ｏｎ

Ｎｕｔｃｈ

（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｉｃａｌＳｃｉｅｎｃｅ，Ｎａｎｋａｉ
Ａｂｓｔｒａｃｔ：Ｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅ

Ｕｎｉｖｅｒｓｉｔｙ，Ｔｉａｎｊｉｎ３０００７１，Ｃｈｉｎａ）
ｓｅａｒｃｈｅｎｇｉｎｅｗｉｔｈＣｈｉｎｅｓｅｐｌｕｇ—ｉｎｂａｓｅｄ
ａｎｄ
Ｏｉｌ

ｓｕｂｊｅＣｔｔｅｎｄｅｎｃｅａｎｄ

ｃｏｒｒｅｃｔｒａｔｅ

ｏｆｓｅａｒｃｈｅｎｇｉｎｅ，ｖｅｒｔｉｃａｌ
ｓｔｒｕｃｔｕｒｅ

Ｎｕｔｃｈｉｓｉｍｐｌｅｍｅｎｔｅｄ．Ｔｈｅｅｎｇｉｎｅ’Ｓｉｍｐｒｏｖｅｄｓｙｓｔｅｍｆｕｎｃｔｉｏｎａｎｄｓｙｓｔｅｍｕｓｉｎｇｉｓａｎａｌｙｚｅｄ．Ｉｔａｌｓｏｉｎｔｒｏｄｕｃｅｓ

ｉｓ

ｇｉｖｅｎ

ｔｈｅｓｙｓｔｅｍｆｕｎｃｔｉｏｎｆｒｏｍｔｈｅｐｏｉｎｔｏｆ
ｓｔｒｕｃｔｕｒｅ

ｔｈｅｐｏｒｔｌｏｇｉｓｔｉｃｓｉｎｆｏｒｍａｔｉｏｎｖｅｒｔｉｃａｌｓｅａｒｃｈｅｎｇｉｎｅｂａｓｅｄｏｎｔｈｉｓｓｙｓｔｅｍ

ａｎｄｃｏｍｐａｒｅｓ

ｗｉｔｈ

ｇｅｎｅｒａｌｅｎｇｉｎｅ’Ｓｒｕｎｎｉｎｇｃｏｎｄｉｔｉｏｎｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｈｏｗｓｔｈｅｓｅｉｍｐｒｏｖｅｍｅｎＢｒｅｄｕｃｅｔｈｅｉｎｔｅｒｆｅｒｅｎｃｅ

ｏｆｉｒｒｅｌｅｖａｎｔ

ｉｎｆｏｒｍａｔｉｏｎ

ａｎｄ

ｉｍｐｒｏｖｅｔｈｅｓｙｓｔｅｍａｂｉｌｉｔｙｔｏｄｅａｌｗｉｔｈｃｏｍｐｌｅｘｅｎｖｉｒｏｎｍｅｎｔｏｆ

Ｉｎｔｅｍｅｔ．

Ｋｅｙｗｏｒｄｓ：ｎｕｔｃｈ

ｐｌａｔｆｏｒｍ；ｖｅｒｔｉｃａｌ

ｓｅａｒｃｈ；ｓｙｓｔｅｍｓｔｒｕｃｔｕｒｅ；ｃａｓｅａｎａｌｙｓｅ；ｓｕｂｊｅｃｔｓｅａｒｃｈ

０引

言

索引擎ｏＩ。只要對其一些功能根據(jù)需要進行功能改進就可以獲得效果提升。因此，本文對其幾個主要功能做了改進，例如，在Ｎｕｔｅｈ平臺上增加了中文分詞插件，從而使Ｎｕｔｃｈ具有中文信息處理能力：此外，在系統(tǒng)實現(xiàn)中采用了基于向量空間模型Ⅲ的主題相似度判別算法，并對該算法進行改進．加入元數(shù)據(jù)判別機制和重要標簽所包含關(guān)鍵詞的加權(quán)處理。分析了“隧道現(xiàn) 象”的成閃和日前的處理方式。在Ｎｕｔｃｈ原有的爬蟲部分源代碼加入“隧道處理”機制，以處理主題網(wǎng)頁分離的問題，并且修改了檢索結(jié)果排序的源代碼，在原有的基于鏈接相似度評分的基礎ｔ加入了根據(jù)貞面主題相似度評分，使其更適應垂直搜索引擎的要求”１。本文主要就改進的Ｎｕｔｃｈ體系結(jié)構(gòu)、用例分析功能模塊、從系統(tǒng)用戶和主要功能流程之間的關(guān)聯(lián)等方面進行分析。并給出了運行效果，給出了基于Ｎｕｔｃｈ構(gòu)建的港口物流信息垂直搜索引擎Ⅲ，從而實現(xiàn)了多個港口物流信息的快捷查詢和共享。

垂直搜索引擎是針對某一行業(yè)或組織，以構(gòu)筑某行業(yè)或組織的網(wǎng)絡信息資源庫為目標來滿足行業(yè)專業(yè)需求或者組織某項業(yè)務需求，智能地在瓦聯(lián)網(wǎng)卜搜集符合某一專題需要的信息資源。是通用搜索引擎的細化和延伸…．它對網(wǎng)頁庫中的某類爭業(yè)信息進行整合，分字段抽取出用戶需要的數(shù)據(jù)，處理后以某種形式返【ｎｌ給用戶。能夠為包括學科信息門戶、專業(yè) 信息機構(gòu)、特定行業(yè)領域、公司信息中心、行業(yè)專家等等在內(nèi) 的信息用戶．提供整套的網(wǎng)絡信息資源開發(fā)力．案。由此可見垂直搜索引擎是更有針對性的搜索引擎．它只搜索特定主題的信息“１。在國內(nèi)外，關(guān)于垂直搜索引擎的研究成為一個新的熱點，出現(xiàn)了許多有具有代表性的應用系統(tǒng)科學搜索引擎Ｓｃｉ．ｍｓ、Ｂｅｒｋｅｌｅｙ的Ｆｏｃｕｓｅｒｏｊｅｃｔ等。而港口物流信息都集中在各自的門戶網(wǎng)站中，形成了一個個孤島，無法讓用戶集中深入的獲取到各個主要港口的物流信息。因此。本文構(gòu)建港口物流信息垂直搜索引擎，以實現(xiàn)港ｕ物流信息的快捷臺詢和共事。本文實現(xiàn)的系統(tǒng)是在Ｎｕｔｃｈ的基礎卜進行擴展和修改的，Ｎｕｔｃｈ是Ａｐａｃｈｅ軟件基金會提供的一個開放源代碼的Ｗｅｂ搜
收稿日期：２０１０．０２．１０：修訂日期：２０１０－０４．２６．基金項目：困家科技支撐計劃肇金鶯人項目（２００７ＢＡＨＩＯＢＯＩ）。

ｌ系統(tǒng)功能和體系結(jié)構(gòu)
１．１

Ｎｕｔｃｈ體系架構(gòu) Ｎｕｔｃｈ作為一個搜索引擎，其基本組成也同其它搜索引擎

作者簡介：邵秀麗（１９６３－－）．女．天津人，教授．研究力．向為網(wǎng)格計算、軟件Ｔ程等ｌ向為軟件上程、數(shù)據(jù)挖掘；

劉彬（１９８４一），男。河北安新人，碩＋研究生，研究方

張濤（１９８３－－），男，河北邯鄲人，碩士研究生，研究方向為軟件上程。Ｅ－ｍａｉｈｓｈａｏｘｌ【＠ｎａｎｋａｉ．ｃｄｕ．ｃｎ

萬方數(shù)據(jù)

５４０

２０１１，Ｖ０１．３２，Ｎｏ．２

計算機工程與設計Ｃｏｍｐｕｔｅｒ

ＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ

一樣。簡單的說，包括爬蟲，索引和搜索３部分。其體系結(jié)構(gòu) 圖如圖ｌ所示。

頁面的鏈接，將其更新到數(shù)據(jù)庫中（ｕｐｄａｔｅｄｂ）；（６）重復進行３～５的步驟，直到預先設定的抓取深度。這

個循環(huán)過程被稱為“產(chǎn)生／抓�。隆毖h(huán)。根據(jù)ｓｅｇｍｅｎｔｓ的
內(nèi)容更新ＬｉｎｋＤＢ數(shù)據(jù)庫（ｉｎｖｅｒｔｌｉｎｋｓ）；

（７）建立索引，對每個Ｓｅｇｍｅｎｔ生成一個索引（ｉｎｄｅｘ）；
（８）從這些索引中刪除冗余的網(wǎng)頁和ＵＲＬ；（９）把所有這些小索引合并成一個大的索引，用來搜索；（１０）用戶通過用戶接口進行查詢操作；（１１）將用戶查詢轉(zhuǎn)化為Ｌｕｃｅｎｅ查詢；（１２）返回結(jié)果。

其中：（１）－－（６）屬于爬蟲部分，（７Ｈ９）屬于索引部分，（１０卜
０２）屬于查詢部分。１．２改進系統(tǒng)的功能
圖ｌ

Ｎｕｔｃｈ體系結(jié)構(gòu)

按照搜索引擎的一般結(jié)構(gòu)，本文系統(tǒng)設計分為搜索引擎內(nèi)核部分和輔助功能部分０１。通常需要有維護人員進行一系列的管理和設置工作，控制系統(tǒng)協(xié)調(diào)高效的工作。改進系統(tǒng) 的功能設計框架如圖２所示。

Ｎｕｔｃｈ由４個主要的數(shù)據(jù)結(jié)構(gòu)提供數(shù)據(jù)支撐，分別是Ｗｅｂ－
ＤＢ、ＬｉｎｋＤＢ、Ｓｅｇｍｅｎｔｓ和Ｉｎｄｅｘ。

（Ｉ）ＷｅｂＤＢ用來存儲從抓取開始（包括重新抓�。┛吹降乃� 有ＵＲＬ的相關(guān)信息。這些信息包括狀態(tài)、抓取的時間、重試的次數(shù)、分數(shù)、簽名、修改的時間、元數(shù)據(jù)等。狀態(tài)有未抓取、己抓取、成功抓取、需要重試等。（２）Ｌｉｎｌ①Ｂ用來存儲鏈接信息。對于每一個ＵＲＬ，在這個數(shù)據(jù)庫中都有一項與之對應，該項的數(shù)據(jù)包括該ＵＲＬ。連向該ＵＲＬ的所有ＵＲＬ及其錨文本。這個數(shù)據(jù)結(jié)構(gòu)可以迅速找到一個ＵＲＬ的所有父頁面的ＵＲＬ，也可以用它來計算所有頁面的ＰａｇｅＲａｎｋ值。（３）Ｓｅｇｍｅｎｔｓ包含若干個Ｓｅｇｍｅｎｔ，由于Ｎｕｔｃｈ爬蟲的抓取方式是采用廣度優(yōu)先搜索來抓取互聯(lián)網(wǎng)上的頁面。所以它的

圈臣圃臣團圈巨圃臣圃巨固匿圃匿圃
圖２本系統(tǒng)功能框架按照與搜索引擎結(jié)合的緊密程度，主題管理、資源發(fā)現(xiàn)、檢索結(jié)果顯示等內(nèi)容屬于輔助部分；網(wǎng)絡爬蟲、網(wǎng)頁分析、主題過濾、網(wǎng)頁索引、網(wǎng)頁檢索等內(nèi)容屬于搜索引擎的內(nèi)核部分。由于Ｎｕｔｃｈ平臺已經(jīng)提供了其中的大部分功能，這樣就可以集中精力開發(fā)滿足特定需要的功能模塊。１．３系統(tǒng)的體系結(jié)構(gòu) 該系統(tǒng)的體系結(jié)構(gòu)如圖３所示。它的功能流程如下：利用Ｎｕｔｃｈ的網(wǎng)絡爬蟲獲�。鳎澹饩W(wǎng)頁，并對其進行解析。每當獲得一定數(shù)量的網(wǎng)頁后就對這些獲取的網(wǎng)頁文檔進行主題相關(guān) 性判斷，如果該文檔與主題相關(guān)：一方面反作用于網(wǎng)絡爬蟲，沿著該ＵＲＬ信息繼續(xù)爬行，如果不相關(guān)則放棄當前的頁面，但是把該頁面中的ＵＲＬ放入ＵＲＬ候選隊列中，用來爬取可能的主題頁面：另一方面把那些與主題相關(guān)的文檔調(diào)用Ｎｕｔｃｈ的索引器來建立索引。搜索器及用戶界面仍然采用Ｎｕｔｃｈ的原有的結(jié)構(gòu)。有底色背景的模塊是本文引擎對Ｎｕｔｃｈ重點實現(xiàn)或改進的部分：（Ｉ）頁面分析模塊：在Ｎｕｔｃｈ基礎上加入中文分詞插件，以實現(xiàn)中文分詞功能。（２）頁面過濾模塊：修改Ｎｕｔｃｈ代碼加入主題相似度判別功能，以實現(xiàn)對網(wǎng)頁主題進行相似度判定和過濾。

抓取是一層一層，每一層就對應一個Ｓｅｇｍｅｎｔ。一個Ｓｅｇｍｅｎｔ
里面又包括ｃｒａｗｌ—ｇｅｎｅｒａｔｅ，ｃｒａｗｌ－ｆｅｔｃｈ，ｃ．ｏｎｔｅｎｔ，ｐａｒｓｅ－ｔｅｘｔ，ｐａｒｓｅ，－ｄａｍ，ｃｒａｗｌ—ｐａｒｓｅ等文件夾。ｃｒａｗｌ．ｇｅｎｅｒａｔｅ里面存放的是待抓取的ＵＲＬ列表，ｃｒａｗｌ．ｆｅｔｃｈ里面存放的是抓取下來的ｕＲＬ的信息屬性，ｃｏｎｔｅｎｔ里面存放的是抓下來的網(wǎng)頁內(nèi)容，ｐａｒｓｅ－ｔｅｘｔ里面存放的是解析網(wǎng)頁所獲得的網(wǎng)頁文本，ｐａｒｓｅ－ｄａｔａ里面存放的是解析網(wǎng)頁所獲得的網(wǎng)頁數(shù)據(jù)，ｃｒａｗｌ－ｐａｒｓｅ里面存放的是抓下來的頁面的一些信息屬性。（４）Ｉｎｄｅｘ里面存放的是對抓取下來的網(wǎng)頁建立索引后的文件。Ｎｕｔｃｈ使用Ｌｕｃｅｎｅ來建立索引，Ｌｕｃｅｎｅ是Ａｐａｃｈｅ軟件基金會Ｊａｋａｒｔａ項目組的子項目，它不是一個完整的全文索引系統(tǒng)，而是一個用Ｊａｖａ寫的全文索引引擎工具包．提供了多個ＡＰ！函數(shù)和靈活的數(shù)據(jù)存儲結(jié)構(gòu)，可以方便嵌入到各種應用中實現(xiàn)針對應用的全文索引和檢索。在此基礎上，其整個的工作流程可以分為如下幾步：（１）建立初始ＵＲＬ集：（２）將初始ＵＲＬ集注入到ｃｒａｗｌｄｂ數(shù)據(jù)庫中（ｉｎｊｅｃｔ），整個網(wǎng) 頁抓取過程將會從這些種子ＵＲＬ開始抓取，慢慢延伸到整個互聯(lián)網(wǎng)�；蛘咧钡接脩糁付ǖ淖ト訑�(shù)停止：（３）根據(jù)ｃｒａｗｌｄｂ數(shù)據(jù)庫創(chuàng)建抓取列表（ｇｅｎｅｒａｔｅ）： “）執(zhí)行抓取，獲取網(wǎng)頁信息（ｆｅｔｃｈ）：（５）更新數(shù)據(jù)庫，被抓下來的網(wǎng)頁中包含有大量指向其它

萬方數(shù)據(jù)

邵秀麗，劉彬，張濤：基于Ｎｕｔｃｈ的垂直搜索引擎的設計和實現(xiàn)
（３）鏈接過濾模塊：修改Ｎｕｔｃｈ代碼加入處理“隧道現(xiàn)象” 的功能，從而使爬蟲可以爬取被無用頁面分隔的豐題頁面。

２０１ｌ，Ｖ０１．３２，Ｎｏ．２

５４１

內(nèi)容解析功能，通常還包括內(nèi)容的模板化提取�？梢缘玫礁� 為精細的網(wǎng)頁內(nèi)容，減少內(nèi)容無關(guān)和垃圾信息的影響。（６）ｔ題相關(guān)度判定：針對下載的嘲頁的實際內(nèi)容，，判斷其與主題的相關(guān)性和相似度。根據(jù)相似程度判斷是甭刪除或保留。（７）主題索引建立：索引部分町以采用一般的通用搜索引擎存儲格式，在這里采用Ｎｕｔｃｈ中集成的Ｌｕｃｅｎｅ提供索引建立功能。（８）主題檢索服務：提供領域信息的檢索服務，為用戶提供

（４）Ｎｕｔｃｈ檢索器：修改Ｎｕ劬代碼在原有的檢索結(jié)果排序
的基礎七加入頁面主體相似性因素，使相關(guān)度高的結(jié)果優(yōu)先顯示給用戶。

初始ＵＲＬ列表貝面聚集模塊

更加及時有效的信息，同時減少無關(guān)信息，方便用戶快速定位資源，滿足用戶信息獲取的需要。本文開展的對Ｎｕｔｃｈ的改進工作內(nèi)容主要有（這里簡單介紹，有關(guān)內(nèi)容，請看本課題組發(fā)表的其它論文）：（１）Ｎｕｔｃｈ工作原理的分析

面唄Ｈ‘加入Ｎ頁ｕ髫糕㈣Ｈ頁噗
＼…”。！美簍釜Ｈ竺
‘修改Ｎｕｔｃｂ代碼）ｌ’
鏈接過濾模塊（修改Ｎｕｔｃｈ代碼）

Ｎｕｔｃｈ的工作分為３個階段：抓取、索引和檢索。抓取階段取得網(wǎng)頁并把他們處理成倒排索引。后面檢索階段的工作

—Ｎｕ意ｔｃｈ翮
索‘Ｉ器Ｎｕｔｃｈ霞０Ｉ教槲庫

。囂曲Ｎｕ榆ｔｃｈ勰，恒
‘修段代碼）Ｉ

ＵＲＬ隊列

基于這哆索引來進行。（２）中文分詞插件的實現(xiàn) 中文分詞是中文垂直搜索引擎中的一個關(guān)鍵技術(shù)，分詞的好壞直接影響提取文本的精確度。Ｎｕｔｃｈ是針對英文開發(fā)
用戶

ｌ：：＝：＝：：

的，因此，本文系統(tǒng)在此基礎上修改內(nèi)部代碼，以實現(xiàn)中文分詞的功能。（３）主題相似度判別的實現(xiàn) 現(xiàn)在應用于主題相似度判別的技術(shù)有很多，主要有：元數(shù)

圖３本系統(tǒng)體系結(jié)構(gòu)

２系統(tǒng)的用例模型
根據(jù)用戶和系統(tǒng)的需求，創(chuàng)建用例圖來描述垂直搜索引擎的軟件功能模塊，以及這些模塊之間的調(diào)用關(guān)系。系統(tǒng)使用者和外部通信目標包括：查詢用戶、系統(tǒng)管理員。查詢用戶通過系統(tǒng)進行檢索；系統(tǒng)管理員維護系統(tǒng)運行，進行抓取、預處理等［作。從垂直搜索引擎的這個結(jié)構(gòu)和功能進行分析，得到的用例圖如圖４所示。

據(jù)判別技術(shù)，擴展元數(shù)據(jù)判別技術(shù)，頁面間鏈接分析技術(shù)，頁面語義信息分析技術(shù)。本文系統(tǒng)在充分利用Ｎｕｔｃｈ提供的鏈接分析技術(shù)的基礎上整合了頁面語義信息的分析判別技術(shù)，并增加了元數(shù)據(jù)的判別。在構(gòu)造頁面關(guān)鍵詞向量空間時對重要標簽所包含關(guān)鍵詞進行了加權(quán)處理，提高了主題相似度判別的準確率和效率。（４）隧道穿越的實現(xiàn)

≮畫爹＠≤多菩：暑晷
＠
⑧
圖４

由于商業(yè)競爭和其它的原因，各個門戶網(wǎng)站之間很少會有超鏈接直接相連，從而可能造成爬蟲抓取不到相關(guān)的網(wǎng)頁。本文提出了一種優(yōu)先度遞減和ＵＲＬ黑名單結(jié)合的方式來處理該問題。（５）Ｎｕｔｃｈ結(jié)果排序算法的改進Ｎｕｔｃｈ的排序是針對通用搜索引擎設計的，采用了類似ＰａｇｅＲａｎｋ的結(jié)果評分機制，只考慮了ＵＲＬ的重要程度而沒有考慮頁面信息的蘑要程度．本文通過修改Ｎｕｔｃｈ的排序源碼將ＵＲＬ和頁Ｉ亙ｉ的蕈要程度都引入到結(jié)果的排序中．從而提高了

系統(tǒng)用例圖

針對用例的功能描述如下：（１）系統(tǒng)管理控制：為管理員提供參數(shù)設置和內(nèi)容管理功能，能夠靈活挖制資源的訪問和系統(tǒng)的內(nèi)容屬性等相關(guān)信息。（２）一ｌｊ題側(cè)管理：提供主題詞管理界面，系統(tǒng)管理員可以維護一份選定的Ｅ題詞列表，其功能操作包括添加、修改、刪除主題詞，為：ｉ：題側(cè)設置權(quán)霞。（３）辛題資源發(fā)現(xiàn)：即起始ＵＲＬ列表的選擇，要求能及時、有效的自動裔找、增加相關(guān)的信息內(nèi)容。（４）ｔ－．題資源Ｆ載：定向Ｆ載的９【）９絡爬蟲為垂汽搜索引擎提供盡可能榭哭的原始網(wǎng)頁，同時要爆最避免下載尤關(guān)的數(shù)據(jù)。（５）文本分析：文本分析挺供針對特定領域和ｌ＝Ｉ標的文本

結(jié)果顯示的質(zhì)量，增強了用戶的檢索體驗。
３

系統(tǒng)實現(xiàn)

３．１系統(tǒng)工作流程上述的功能流程圖說明了系統(tǒng)的主要功能模塊之間的調(diào) 用關(guān)系。在具體的系統(tǒng)運行過程中，其工作流程如圖５所示。（１）系統(tǒng)首先從原始ＵＲＬ列表將原始ＵＲＬ注入ＷｅｂＤＢ：（２）系統(tǒng)從ＷｅｂＤＢ生成ＦｅｔｃｈＬｉｓｔ，即抓取列表，其中包含系統(tǒng)本輪需要抓取的ＵＲＬ：（３）爬蟲Ｆｅｔｃｈｅｒｓ調(diào)用ＦｅｔｃｈＬｉｓｔ，對其中每一個ＵＲＬ進行抓取，抓取得到的數(shù)據(jù)通過解析器Ｐａｒｓｅｒ進行解析與中文分

萬方數(shù)據(jù)

５４２

２０１１，Ｖ０１．３２，Ｎｏ．２

計算機工程與設計Ｃｏｍｐｕｔｅｒ

ＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ

圖５系統(tǒng)工作流程詞等工作； “）解析得到的數(shù)據(jù)送入主題過濾器，如果主題過濾器判斷某一個頁面與主題無關(guān)，系統(tǒng)將會丟棄它；（５）主題過濾器處理后的數(shù)據(jù)分成兩個部分，一部分是頁面中提取出的ＵＲＬ送入更新器Ｕｐｄａｔｅｓ提交到ＷｅｂＤＢ中，準備進行下一輪抓取，另一部分是頁面信息送入Ｃｏｎｔｅｎｔ進行存儲。（６）Ｃｏｎｔｅｎｔ中存儲的數(shù)據(jù)送入索引器進行索引，索引結(jié)果將被保存：（７）用戶可以通過ＷｅｂＳｅｒｖｅｒ?qū)λ饕^的數(shù)據(jù)進行檢索。其中：（１）到（６）是提供查詢用戶服務前的工作。系統(tǒng)反復進行（２）到（６）可以通過一輪一輪的抓取，不斷擴展系統(tǒng)中的數(shù)據(jù)量。３．２運行流程該系統(tǒng)在建立之初已經(jīng)把目標領域定位為港口物流信息的搜索，因此初次運行時需要首先確定與本領域相關(guān)的主題詞和起始ＵＲＬ列表，然后將其加入系統(tǒng)的配置文件中，本文實現(xiàn)的系統(tǒng)提供了一個配置工具以方便系統(tǒng)管理員維護主題詞和ＵＲＬ列表。這樣系統(tǒng)管理員就可以運行系統(tǒng)的爬蟲，從互聯(lián)網(wǎng)上爬取與主題相關(guān)的網(wǎng)頁，建立索引，為用戶提供檢索服務。隨著時間的推移，必然會有新的網(wǎng)頁加入的互聯(lián)網(wǎng)中，同時已經(jīng)保存并建立索引的網(wǎng)頁也有可能被原始網(wǎng)站刪除或修改，這就需要更新爬取，加入新的網(wǎng)頁，處理失效的鏈接網(wǎng) 頁等。運行流程圖如圖６所示。３．３實際運行以下是實際運行時的界面：（１）主題詞和起始ＵＲＬ配置界面系統(tǒng)配置工具如圖７所示。在“主題詞管理”欄可以添加、修改主題詞和權(quán)垂，也可以刪除主題詞：在。起始ＵＲＬ管理”欄可以打開起始ｕＲＬ文件，在其中添加或者刪除起始ＵＲＬ－在“運行管理”欄可以點擊。初次運行”按鈕或“更新”按鈕。已開啟ｃｙｇｗｉｎ的命令行界面。（２）爬蟲運行界面Ｎｕｔｃｈ是為在Ｌｉｎｕｘ系統(tǒng)下運行而開發(fā)的。因此在Ｗｉｎｄｏｗｓ下需要安裝ｃｙｇｗｉｎ工具來模擬Ｌｉｎｕｘ環(huán)境才能使用Ｎｕｔｃｈ。３．４測試結(jié)果與分析在實際情況下很難計算一個垂直搜索引擎的查全率，因為根本無法計算一個互聯(lián)網(wǎng)Ｅ有多少主題相關(guān)頁面，同時本文設計的垂直搜索引擎的目的是為了讓返ｌ口］的結(jié)果集中含有更多與主題相關(guān)的信息，所以在這里只用查準確率來評價系統(tǒng)性能。（下轉(zhuǎn)第５４８頁）
圖７系統(tǒng)配置工具

翟蘆
圖６系統(tǒng)運行步驟

萬方數(shù)據(jù)

５４８

２０１Ｉ，Ｖ０１．３２，Ｎｏ．２

計算機工程與設計Ｃｏｍｐｕｔｅｒ

ＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ

統(tǒng)開發(fā)，為校園網(wǎng)提供了可擴展、面向服務的管理平臺，也為利用ＳＯＡ方法解決其它行業(yè)的需求提供了很好的參考。

參考文獻：
【１】
ＭａｒｋＤＨａｎｓｅｎ．使用ＪａｖａＷｅｂ服務構(gòu)建ＳＯＡ【Ｍ】．北京：電子

工業(yè)出版社，２００９．
【２】

劉賢梅，劉茜，徐鋒，等．基于ＳＯＡ的企業(yè)應用集成模型的研究

圖９使…。ｃｎｅｎｔ與ｗｉｎｄｏｗｓ環(huán)境中㈣愷最姬吲罷茹慧三蘭０＝篇竺：一嘶。眥。
ｆｅａｔｕｒｅｓ－ａｎｄ—ｆｕｎｃｔｉｏｎａｌ—ｃｏｎｃｅｐｔｓ，２００６?０４－１４。

ｅｏｎｃｅｐｔｓ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｕｄｄｉ．ｘｍｌ．ｏｒｇ／ｉｎｔｒｏｄｕｃｔｉｏｎｕｄｄｉ－ｉｍｐｏｒｔａｎｔ－

【４】

ＳｈａｌｌｉｄＡｈｍｅｄ．Ｘｆｉｒｅ：Ｔｈｅｅａｓｙａｎｄｓｉｍｐｌｅｗａｙ

ｔｏ

ｄｅｖｅｌｏｐｗｅｂ

ｓｅｒｖｉｃｅｓ。ＪａｖａＷｏｒｄ．ｃｏｍ［ＥＢ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｊａｖａｗｏｒｌｄ．ｅｏｍ／ｊａ— ｖａｗｏｒｌｄ／ｊＷ一０５—２００６ａｗ．０５０１一ｘｆｉｒｅ．ｈｔｍ，２００７－０９—１０．［５】【６】圖１０使用Ｐｉｎｇ工具探測對拓撲中的設備【７】部分：中央服務器、網(wǎng)絡狀態(tài)探測框架、拓撲編輯器。運維平臺使用服務封裝了各種嘲絡管理功能，并將這蝗服務在中央服務器上進行發(fā)布；實現(xiàn)了可拓展可編程的網(wǎng)絡狀態(tài)探測框架ＮＳＤＩ．開發(fā)了界面友好功能強大的圖形化拓撲編輯器，可以監(jiān) 控和管理網(wǎng)絡拓撲。本文將ＳＯＡ的設計理論應用于實際的系［８１陳明．網(wǎng)絡協(xié)議教程【Ｍ１．ｊＥ京：清華大學出版社，２００４．黃曉波，潘雪增．網(wǎng)絡拓撲發(fā)現(xiàn)的算法和實現(xiàn)【Ｊ】．計算機應用與軟件＇２００７，２４（７）：１５９－１６ｌ? 冀汶莉，李勇軍．Ｔｒａｎｓｉｔ．Ｓｔｕｂ網(wǎng)絡拓撲可視化研究【Ｊ】．微電子學與計算機，２００７，２４（１）：１３６?１３９．石永革，陳曉瑤．網(wǎng)絡拓撲搜索算法的分析與優(yōu)化［Ｊ】．計算機工程與設計，２００７，２８（１２）：２８２８．２８５０．【９】李安渝．Ｗｅｂｓｅｒｖｉｃｅ技術(shù)與實現(xiàn)【Ｍ】．北京：國防工業(yè)出版社。
２００３．

（上接第５４２頁）

為了說明本系統(tǒng)的主題搜索性能，選擇通用搜索引擎Ｇｏｏｇｌｅ對關(guān)鍵詞“港口物流”進行搜索，同時使用本系統(tǒng)進行同樣的搜索，對兩個系統(tǒng)結(jié)果集的前２００個頁面進行了主題相關(guān)度評價，與通用搜索引擎的比較，對比數(shù)據(jù)結(jié)果如表ｌ所示。表ｌ與通用搜索引擎比
搜索０Ｉ擎棚莢時間

本文提出的港口物流信息垂寅搜索引擎的設計和實現(xiàn)方案是切實可行的，系統(tǒng)基本達到了預期設計目標。該系統(tǒng)的研究促進了港口物流信息化的發(fā)展并對該領域的從業(yè)人員起到了很好的幫助作用。但是還有一些需要改進的地方，例如進一步提高主題判別的準確度等。

ｌ土趣相關(guān)嗍貞數(shù)Ｊ
８９

轟準率

參考文獻：
【ｌ】【２１徐和祥．ＤｅｅｐＷｅｂ集成中若干技術(shù)研究【Ｃ】．復黽大學。２００８．ｈｔｔｐ：／／ｉｎｃｕｂａｔｏｒ．ａｐａｃｈｅ．ｏｒｇ／ｎｕｔｅｈ／ａｐｉｄｏｅｓ［ＥＢ／ＯＬ］．李軍＇黃海寬，曹琦．基于支持向黿機的中藥工藝參數(shù)優(yōu)化研究【Ｊ】．計算機工程與應用，２００７，４３（３６）：２０５．２０７．ｆ４】申晉．基于Ｌｕｃｅｎｅ和Ｎｕｔｃｈ的林業(yè)垂直搜索引擎的研建【Ｊ】．農(nóng) 業(yè)網(wǎng)絡信息，２００８（４）：１６－１８．【５１余棟柱．用Ｎｕｔｅｈ構(gòu)建垂直搜索引擎的方案【Ｊ】．工程技術(shù)，２００９
（１４）：１１８．１２０．

Ｇｏｏｇｌｅ

０．２Ｉｓ

４４．５％

實驗結(jié)果表明，港口物流信息垂直搜索引擎具有明顯的主題傾向性，結(jié)果的查準率優(yōu)于通用搜索引擎。但是系統(tǒng)在搜索速度上不如商業(yè)搜索引擎．這是因為Ｎｕｔｃｈ所采用的開發(fā) 語言和其算法沒有Ｇｏｏｇｌｅ高效以及實驗系統(tǒng)本身的硬件性能限制。綜Ｉ二，本文系統(tǒng)初步達到了在單臺服務器下能夠比較準確的搜索出與港口物流主題相關(guān)信息的設計要求，可以進行進一步的改進和實旖應用。

【３】

【６】

王仕仲，寧龍兵．基于Ｎｕｔｃｈ的中文搜索引擎的研究與實現(xiàn)【Ｊ】．
電腦開發(fā)與應用，２００９（７）：７６－－７９．

【７】

張錦忻．基于Ｎｕｔｃｈ的中文搜索引擎的構(gòu)建【Ｊ】．圖書館研究與

４結(jié)束語
本文提出了一種基于開源Ｎｕｔｃｈ平臺的垂直搜索引擎解決方案，研究并實現(xiàn)了港口物流信息垂直搜索引擎，實驗證明【８Ｊ

工作２００９（”：彈５７．
張斌，周爾寧．基于Ｎｕｔｃｈ的分布式紡織垂直搜索引擎研究【ＪＪ．電腦知識與技術(shù)，２００９（２１）：５７８５－５７８７．

萬方數(shù)據(jù)

基于Nutch的垂直搜索引擎的設計和實現(xiàn)
作者：作者單位：刊名：英文刊名：年，卷(期)：被引用次數(shù)：邵秀麗，劉彬，張濤， SHAO Xiu-li， LIU Bin， ZHANG Tao 南開大學信息技術(shù)科學學院,天津,300071 計算機工程與設計 COMPUTER ENGINEERING AND DESIGN 2011,32(2) 2次

參考文獻(8條) 1.徐和祥 DeepWeb集成中若干技術(shù)研究 2008 2.查看詳情 3.李軍;黃海寬;曹琦基于支持向量機的中藥工藝參數(shù)優(yōu)化研究[期刊論文]-計算機工程與應用 2007(36) 4.申晉基于Lucene和Nutch的林業(yè)垂直搜索引擎的研建[期刊論文]-農(nóng)業(yè)網(wǎng)絡信息 2008(04) 5.余棟柱用Nutch構(gòu)建垂直搜索引擎的方案 2009(14) 6.王仕仲;寧龍兵基于Nutch的中文搜索引擎的研究與實現(xiàn)[期刊論文]-電腦開發(fā)與應用 2009(07) 7.張錦炘基于Nutch的中文搜索引擎的構(gòu)建 2009(01) 8.張斌;周爾寧基于Nutch的分布式紡織垂直搜索引擎研究[期刊論文]-電腦知識與技術(shù) 2009(21)

本文讀者也讀過(3條) 1. 趙德平.劉陽.李鵬.MAO Deping.LIU Yang.LI Peng 基于Lucene的房產(chǎn)信息垂直搜索引擎的研究[期刊論文]-沈陽建筑大學學報（自然科學版）2011,27(1) 2. 王夢溪.王斌.WANG Meng-xi.WANG Bin 基于標簽的垂直搜索研究及在視頻搜索中的應用[期刊論文]-儀表技術(shù) 2011(5) 3. 羅立宏.陳志.LUO Li-hong.CHEN Zhi 基于語義分析的垂直搜索網(wǎng)絡蜘蛛[期刊論文]-計算機工程與設計 2008,29(18)

引證文獻(5條) 1.郭曉霞.王磊.席巖.王曉艷.汪瑛基于網(wǎng)絡的視頻內(nèi)容檢索與盜版追蹤溯源研究[期刊論文]-廣播與電視技術(shù) 2011(7) 2.陳建峽.李倩倩.王春枝基于Nutch搜索引擎的E-learning系統(tǒng)開發(fā)[期刊論文]-湖北工業(yè)大學學報 2011(5) 3.陳誠基于云計算的智慧城市垂直搜索技術(shù)研究[期刊論文]-軟件產(chǎn)業(yè)與工程 2012(4) 4.王燕平基于文獻計量的我國搜索引擎研究現(xiàn)狀和熱點分析[期刊論文]-現(xiàn)代情報 2012(7) 5.陳誠基于云計算的智慧城市垂直搜索技術(shù)研究[期刊論文]-軟件產(chǎn)業(yè)與工程 2012(4)

本文鏈接：

本文關(guān)鍵詞：基于Nutch的垂直搜索引擎的設計和實現(xiàn)，由筆耕文化傳播整理發(fā)布。

本文編號：196849

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/196849.html

上一篇：《計算機工程與應用》2001年24期
下一篇：網(wǎng)絡搜索研究與應用

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Nutch的垂直搜索引擎的設計和實現(xiàn)