基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)
本文關(guān)鍵詞:基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
計(jì)算機(jī)工程與設(shè)計(jì)ComputerEngineering
and Design
2011,V01.32,No.2
539
基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)
邵秀麗,
劉 彬, 張
濤
(南開(kāi)大學(xué)信息技術(shù)科學(xué)學(xué)院,天津3000
71)
摘要:為了提高搜索引擎的主題傾向性和準(zhǔn)確率,在Nutch平臺(tái)上實(shí)現(xiàn)了帶有中文分詞插件的垂直搜索引擎,給出了改進(jìn) 后引擎的系統(tǒng)功能和體系結(jié)構(gòu),并從用例角度分析了系統(tǒng)的功能,介紹了基于該體系結(jié)構(gòu)實(shí)現(xiàn)的港口物流信息垂直搜索引 擎以及和一般引擎運(yùn)行情況的比較.實(shí)驗(yàn)結(jié)果表明,這些改進(jìn)提高了主題判別的準(zhǔn)確度和效率,使信息的定位和查找更加 精確,減少了不相關(guān)信息的干擾,并提高了系統(tǒng)對(duì)于互聯(lián)網(wǎng)復(fù)雜環(huán)境的處理能力. 關(guān)鍵詞:Nutch平臺(tái);垂直搜索;體系結(jié)構(gòu):用例分析;主題搜索 中圖法分類號(hào):TP311.52 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1000.7024(201I)02.0539.04
Design and implementation of vertical search engine based
SHAO Xiu.1i. LIu Bin, ZHANG Tao
on
Nutch
(College ofInformation Technical Science,Nankai
Abstract:In order to improve
University,Tianjin 300071,China)
search engine with Chinese plug—in based
and
Oil
subjeCt tendence and
correct rate
of search engine,vertical
structure
Nutch is implemented.The engine’S improved system function and system using is analyzed.It also introduces
is
given
the system function from the point of
structure
the port logistics information vertical search engine based on this system
and compares
with
general engine’S running conditions.The experimental result shows these improvemenB reduce the interference
ofirrelevant
information
and
improve the system ability to deal with complex environment of
Intemet.
Key words:nutch
platform;vertical
search;system structure;case analyse;subject search
0引
言
索引擎oI。只要對(duì)其一些功能根據(jù)需要進(jìn)行功能改進(jìn)就可以獲 得效果提升。因此,本文對(duì)其幾個(gè)主要功能做了改進(jìn),例如, 在Nuteh平臺(tái)上增加了中文分詞插件,從而使Nutch具有中文信 息處理能力:此外,在系統(tǒng)實(shí)現(xiàn)中采用了基于向量空間模型Ⅲ的 主題相似度判別算法,并對(duì)該算法進(jìn)行改進(jìn).加入元數(shù)據(jù)判別 機(jī)制和重要標(biāo)簽所包含關(guān)鍵詞的加權(quán)處理。分析了“隧道現(xiàn) 象”的成閃和日前的處理方式。在Nutch原有的爬蟲(chóng)部分源代 碼加入“隧道處理”機(jī)制,以處理主題網(wǎng)頁(yè)分離的問(wèn)題,并且修 改了檢索結(jié)果排序的源代碼,在原有的基于鏈接相似度評(píng)分 的基礎(chǔ)t加入了根據(jù)貞面主題相似度評(píng)分,使其更適應(yīng)垂直 搜索引擎的要求”1。本文主要就改進(jìn)的Nutch體系結(jié)構(gòu)、用例 分析功能模塊、從系統(tǒng)用戶和主要功能流程之間的關(guān)聯(lián)等方 面進(jìn)行分析。并給出了運(yùn)行效果,給出了基于Nutch構(gòu)建的港 口物流信息垂直搜索引擎Ⅲ,從而實(shí)現(xiàn)了多個(gè)港口物流信息的 快捷查詢和共享。
垂直搜索引擎是針對(duì)某一行業(yè)或組織,以構(gòu)筑某行業(yè)或 組織的網(wǎng)絡(luò)信息資源庫(kù)為目標(biāo)來(lái)滿足行業(yè)專業(yè)需求或者組織 某項(xiàng)業(yè)務(wù)需求,智能地在瓦聯(lián)網(wǎng)卜搜集符合某一專題需要的 信息資源。是通用搜索引擎的細(xì)化和延伸….它對(duì)網(wǎng)頁(yè)庫(kù)中的 某類爭(zhēng)業(yè)信息進(jìn)行整合,分字段抽取出用戶需要的數(shù)據(jù),處理 后以某種形式返【nl給用戶。能夠?yàn)榘▽W(xué)科信息門(mén)戶、專業(yè) 信息機(jī)構(gòu)、特定行業(yè)領(lǐng)域、公司信息中心、行業(yè)專家等等在內(nèi) 的信息用戶.提供整套的網(wǎng)絡(luò)信息資源開(kāi)發(fā)力.案。由此可見(jiàn) 垂直搜索引擎是更有針對(duì)性的搜索引擎.它只搜索特定主題 的信息“1。在國(guó)內(nèi)外,關(guān)于垂直搜索引擎的研究成為一個(gè)新的 熱點(diǎn),出現(xiàn)了許多有具有代表性的應(yīng)用系統(tǒng)科學(xué)搜索引擎Sci. ms、Berkeley的Focuseroject等。而港口物流信息都集中在各 自的門(mén)戶網(wǎng)站中,形成了一個(gè)個(gè)孤島,無(wú)法讓用戶集中深入的 獲取到各個(gè)主要港口的物流信息。因此。本文構(gòu)建港口物流 信息垂直搜索引擎,以實(shí)現(xiàn)港u物流信息的快捷臺(tái)詢和共事。 本文實(shí)現(xiàn)的系統(tǒng)是在Nutch的基礎(chǔ)卜進(jìn)行擴(kuò)展和修改的, Nutch是Apache軟件基金會(huì)提供的一個(gè)開(kāi)放源代碼的Web搜
收稿日期:2010.02.10:修訂日期:2010-04.26. 基金項(xiàng)目:困家科技支撐計(jì)劃肇金鶯人項(xiàng)目(2007BAHIOBOI)。
l系統(tǒng)功能和體系結(jié)構(gòu)
1.1
Nutch體系架構(gòu) Nutch作為一個(gè)搜索引擎,其基本組成也同其它搜索引擎
作者簡(jiǎn)介:邵秀麗(1963--).女.天津人,教授.研究力.向?yàn)榫W(wǎng)格計(jì)算、軟件T程等l 向?yàn)檐浖铣、?shù)據(jù)挖掘;
劉彬(1984一),男。河北安新人,碩+研究生,研究方
張濤(1983--),男,河北邯鄲人,碩士研究生,研究方向?yàn)檐浖铣。E-mai?shaoxl【@nankai.cdu.cn
萬(wàn)方數(shù)據(jù)
540
2011,V01.32,No.2
計(jì)算機(jī)工程與設(shè)計(jì)Computer
Engineering and Design
一樣。簡(jiǎn)單的說(shuō),包括爬蟲(chóng),索引和搜索3部分。其體系結(jié)構(gòu) 圖如圖l所示。
頁(yè)面的鏈接,將其更新到數(shù)據(jù)庫(kù)中(updatedb); (6)重復(fù)進(jìn)行3~5的步驟,直到預(yù)先設(shè)定的抓取深度。這
個(gè)循環(huán)過(guò)程被稱為“產(chǎn)生/抓取/更新”循環(huán)。根據(jù)segments的
內(nèi)容更新LinkDB數(shù)據(jù)庫(kù)(invertlinks);
(7)建立索引,對(duì)每個(gè)Segment生成一個(gè)索引(index);
(8)從這些索引中刪除冗余的網(wǎng)頁(yè)和URL; (9)把所有這些小索引合并成一個(gè)大的索引,用來(lái)搜索; (10)用戶通過(guò)用戶接口進(jìn)行查詢操作; (11)將用戶查詢轉(zhuǎn)化為Lucene查詢; (12)返回結(jié)果。
其中:(1)--(6)屬于爬蟲(chóng)部分,(7H9)屬于索引部分,(10卜
02)屬于查詢部分。 1.2改進(jìn)系統(tǒng)的功能
圖l
Nutch體系結(jié)構(gòu)
按照搜索引擎的一般結(jié)構(gòu),本文系統(tǒng)設(shè)計(jì)分為搜索引擎 內(nèi)核部分和輔助功能部分01。通常需要有維護(hù)人員進(jìn)行一系 列的管理和設(shè)置工作,控制系統(tǒng)協(xié)調(diào)高效的工作。改進(jìn)系統(tǒng) 的功能設(shè)計(jì)框架如圖2所示。
Nutch由4個(gè)主要的數(shù)據(jù)結(jié)構(gòu)提供數(shù)據(jù)支撐,分別是Web-
DB、LinkDB、Segments和Index。
(I)WebDB用來(lái)存儲(chǔ)從抓取開(kāi)始(包括重新抓取)看到的所 有URL的相關(guān)信息。這些信息包括狀態(tài)、抓取的時(shí)間、重試 的次數(shù)、分?jǐn)?shù)、簽名、修改的時(shí)間、元數(shù)據(jù)等。狀態(tài)有未抓取、 己抓取、成功抓取、需要重試等。 (2)Linl①B用來(lái)存儲(chǔ)鏈接信息。對(duì)于每一個(gè)URL,在這個(gè) 數(shù)據(jù)庫(kù)中都有一項(xiàng)與之對(duì)應(yīng),該項(xiàng)的數(shù)據(jù)包括該URL。連向該 URL的所有URL及其錨文本。這個(gè)數(shù)據(jù)結(jié)構(gòu)可以迅速找到 一個(gè)URL的所有父頁(yè)面的URL,也可以用它來(lái)計(jì)算所有頁(yè)面 的PageRank值。 (3)Segments包含若干個(gè)Segment,由于Nutch爬蟲(chóng)的抓取 方式是采用廣度優(yōu)先搜索來(lái)抓取互聯(lián)網(wǎng)上的頁(yè)面。所以它的
圈 臣圃臣團(tuán) 圈 巨圃臣圃巨固匿圃匿圃
圖2本系統(tǒng)功能框架 按照與搜索引擎結(jié)合的緊密程度,主題管理、資源發(fā)現(xiàn)、 檢索結(jié)果顯示等內(nèi)容屬于輔助部分;網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)分析、主 題過(guò)濾、網(wǎng)頁(yè)索引、網(wǎng)頁(yè)檢索等內(nèi)容屬于搜索引擎的內(nèi)核部 分。由于Nutch平臺(tái)已經(jīng)提供了其中的大部分功能,這樣就可 以集中精力開(kāi)發(fā)滿足特定需要的功能模塊。 1.3系統(tǒng)的體系結(jié)構(gòu) 該系統(tǒng)的體系結(jié)構(gòu)如圖3所示。它的功能流程如下:利 用Nutch的網(wǎng)絡(luò)爬蟲(chóng)獲取web網(wǎng)頁(yè),并對(duì)其進(jìn)行解析。每當(dāng)獲 得一定數(shù)量的網(wǎng)頁(yè)后就對(duì)這些獲取的網(wǎng)頁(yè)文檔進(jìn)行主題相關(guān) 性判斷,如果該文檔與主題相關(guān):一方面反作用于網(wǎng)絡(luò)爬蟲(chóng), 沿著該URL信息繼續(xù)爬行,如果不相關(guān)則放棄當(dāng)前的頁(yè)面, 但是把該頁(yè)面中的URL放入URL候選隊(duì)列中,用來(lái)爬取可能 的主題頁(yè)面:另一方面把那些與主題相關(guān)的文檔調(diào)用Nutch的 索引器來(lái)建立索引。搜索器及用戶界面仍然采用Nutch的原 有的結(jié)構(gòu)。 有底色背景的模塊是本文引擎對(duì)Nutch重點(diǎn)實(shí)現(xiàn)或改進(jìn) 的部分: (I)頁(yè)面分析模塊:在Nutch基礎(chǔ)上加入中文分詞插件,以 實(shí)現(xiàn)中文分詞功能。 (2)頁(yè)面過(guò)濾模塊:修改Nutch代碼加入主題相似度判別 功能,以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)主題進(jìn)行相似度判定和過(guò)濾。
抓取是一層一層,每一層就對(duì)應(yīng)一個(gè)Segment。一個(gè)Segment
里面又包括crawl—generate,crawl-fetch,c.ontent,parse-text,parse,- dam,crawl—parse等文件夾。crawl.generate里面存放的是待抓 取的URL列表,crawl.fetch里面存放的是抓取下來(lái)的uRL的 信息屬性,content里面存放的是抓下來(lái)的網(wǎng)頁(yè)內(nèi)容,parse-text 里面存放的是解析網(wǎng)頁(yè)所獲得的網(wǎng)頁(yè)文本,parse-data里面存 放的是解析網(wǎng)頁(yè)所獲得的網(wǎng)頁(yè)數(shù)據(jù),crawl-parse里面存放的是 抓下來(lái)的頁(yè)面的一些信息屬性。 (4)Index里面存放的是對(duì)抓取下來(lái)的網(wǎng)頁(yè)建立索引后的 文件。Nutch使用Lucene來(lái)建立索引,Lucene是Apache軟件 基金會(huì)Jakarta項(xiàng)目組的子項(xiàng)目,它不是一個(gè)完整的全文索引 系統(tǒng),而是一個(gè)用Java寫(xiě)的全文索引引擎工具包.提供了多個(gè) AP!函數(shù)和靈活的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),可以方便嵌入到各種應(yīng)用中 實(shí)現(xiàn)針對(duì)應(yīng)用的全文索引和檢索。 在此基礎(chǔ)上,其整個(gè)的工作流程可以分為如下幾步: (1)建立初始URL集: (2)將初始URL集注入到crawldb數(shù)據(jù)庫(kù)中(inject),整個(gè)網(wǎng) 頁(yè)抓取過(guò)程將會(huì)從這些種子URL開(kāi)始抓取,慢慢延伸到整個(gè) 互聯(lián)網(wǎng);蛘咧钡接脩糁付ǖ淖ト訑(shù)停止: (3)根據(jù)crawldb數(shù)據(jù)庫(kù)創(chuàng)建抓取列表(generate): “)執(zhí)行抓取,獲取網(wǎng)頁(yè)信息(fetch): (5)更新數(shù)據(jù)庫(kù),被抓下來(lái)的網(wǎng)頁(yè)中包含有大量指向其它
萬(wàn)方數(shù)據(jù)
邵秀麗,劉彬,張濤:基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)
(3)鏈接過(guò)濾模塊:修改Nutch代碼加入處理“隧道現(xiàn)象” 的功能,從而使爬蟲(chóng)可以爬取被無(wú)用頁(yè)面分隔的豐題頁(yè)面。
201 l,V01.32,No.2
541
內(nèi)容解析功能,通常還包括內(nèi)容的模板化提取?梢缘玫礁 為精細(xì)的網(wǎng)頁(yè)內(nèi)容,減少內(nèi)容無(wú)關(guān)和垃圾信息的影響。 (6)t題相關(guān)度判定:針對(duì)下載的嘲頁(yè)的實(shí)際內(nèi)容,,判斷其 與主題的相關(guān)性和相似度。根據(jù)相似程度判斷是甭刪除或保留。 (7)主題索引建立:索引部分町以采用一般的通用搜索引 擎存儲(chǔ)格式,在這里采用Nutch中集成的Lucene提供索引建 立功能。 (8)主題檢索服務(wù):提供領(lǐng)域信息的檢索服務(wù),為用戶提供
(4)Nutch檢索器:修改Nu劬代碼在原有的檢索結(jié)果排序
的基礎(chǔ)七加入頁(yè)面主體相似性因素,使相關(guān)度高的結(jié)果優(yōu)先 顯示給用戶。
初始URL列表 貝面聚集模塊
更加及時(shí)有效的信息,同時(shí)減少無(wú)關(guān)信息,方便用戶快速定位 資源,滿足用戶信息獲取的需要。 本文開(kāi)展的對(duì)Nutch的改進(jìn)工作內(nèi)容主要有(這里簡(jiǎn)單介 紹,有關(guān)內(nèi)容,請(qǐng)看本課題組發(fā)表的其它論文): (1)Nutch工作原理的分析
面唄H‘加入N頁(yè)u髫糕㈣H頁(yè)噗
\…”。 !美簍釜H竺
‘修改Nutcb代碼)l’
鏈接過(guò)濾模塊 (修改Nutch代碼)
Nutch的工作分為3個(gè)階段:抓取、索引和檢索。抓取階 段取得網(wǎng)頁(yè)并把他們處理成倒排索引。后面檢索階段的工作
—Nu意tch翮
索‘I器 Nutch霞0I教槲庫(kù)
。囂曲Nu榆tch勰,恒
‘修段 代碼)I
URL隊(duì)列
基于這哆索引來(lái)進(jìn)行。 (2)中文分詞插件的實(shí)現(xiàn) 中文分詞是中文垂直搜索引擎中的一個(gè)關(guān)鍵技術(shù),分詞 的好壞直接影響提取文本的精確度。Nutch是針對(duì)英文開(kāi)發(fā)
用戶
l::=:=::
的,因此,本文系統(tǒng)在此基礎(chǔ)上修改內(nèi)部代碼,以實(shí)現(xiàn)中文分 詞的功能。 (3)主題相似度判別的實(shí)現(xiàn) 現(xiàn)在應(yīng)用于主題相似度判別的技術(shù)有很多,主要有:元數(shù)
圖3本系統(tǒng)體系結(jié)構(gòu)
2系統(tǒng)的用例模型
根據(jù)用戶和系統(tǒng)的需求,創(chuàng)建用例圖來(lái)描述垂直搜索引 擎的軟件功能模塊,以及這些模塊之間的調(diào)用關(guān)系。系統(tǒng)使 用者和外部通信目標(biāo)包括:查詢用戶、系統(tǒng)管理員。查詢用戶 通過(guò)系統(tǒng)進(jìn)行檢索;系統(tǒng)管理員維護(hù)系統(tǒng)運(yùn)行,進(jìn)行抓取、預(yù) 處理等[作。從垂直搜索引擎的這個(gè)結(jié)構(gòu)和功能進(jìn)行分析, 得到的用例圖如圖4所示。
據(jù)判別技術(shù),擴(kuò)展元數(shù)據(jù)判別技術(shù),頁(yè)面間鏈接分析技術(shù),頁(yè) 面語(yǔ)義信息分析技術(shù)。本文系統(tǒng)在充分利用Nutch提供的鏈 接分析技術(shù)的基礎(chǔ)上整合了頁(yè)面語(yǔ)義信息的分析判別技術(shù), 并增加了元數(shù)據(jù)的判別。在構(gòu)造頁(yè)面關(guān)鍵詞向量空間時(shí)對(duì)重 要標(biāo)簽所包含關(guān)鍵詞進(jìn)行了加權(quán)處理,提高了主題相似度判 別的準(zhǔn)確率和效率。 (4)隧道穿越的實(shí)現(xiàn)
≮畫(huà)爹@≤多 菩:暑晷
@
⑧
圖4
由于商業(yè)競(jìng)爭(zhēng)和其它的原因,各個(gè)門(mén)戶網(wǎng)站之間很少會(huì) 有超鏈接直接相連,從而可能造成爬蟲(chóng)抓取不到相關(guān)的網(wǎng)頁(yè)。 本文提出了一種優(yōu)先度遞減和URL黑名單結(jié)合的方式來(lái)處 理該問(wèn)題。 (5)Nutch結(jié)果排序算法的改進(jìn) Nutch的排序是針對(duì)通用搜索引擎設(shè)計(jì)的,采用了類似 PageRank的結(jié)果評(píng)分機(jī)制,只考慮了URL的重要程度而沒(méi)有 考慮頁(yè)面信息的蘑要程度.本文通過(guò)修改Nutch的排序源碼將 URL和頁(yè)I亙i的蕈要程度都引入到結(jié)果的排序中.從而提高了
系統(tǒng)用例圖
針對(duì)用例的功能描述如下: (1)系統(tǒng)管理控制:為管理員提供參數(shù)設(shè)置和內(nèi)容管理功 能,能夠靈活挖制資源的訪問(wèn)和系統(tǒng)的內(nèi)容屬性等相關(guān)信息。 (2)一lj題側(cè)管理:提供主題詞管理界面,系統(tǒng)管理員可以維 護(hù)一份選定的E題詞列表,其功能操作包括添加、修改、刪除 主題詞,為:i:題側(cè)設(shè)置權(quán)霞。 (3)辛題資源發(fā)現(xiàn):即起始URL列表的選擇,要求能及時(shí)、 有效的自動(dòng)裔找、增加相關(guān)的信息內(nèi)容。 (4)t-.題資源F載:定向F載的9【)9絡(luò)爬蟲(chóng)為垂汽搜索引擎 提供盡可能榭哭的原始網(wǎng)頁(yè),同時(shí)要爆最避免下載尤關(guān)的數(shù)據(jù)。 (5)文本分析:文本分析挺供針對(duì)特定領(lǐng)域和l=I標(biāo)的文本
結(jié)果顯示的質(zhì)量,增強(qiáng)了用戶的檢索體驗(yàn)。
3
系統(tǒng)實(shí)現(xiàn)
3.1系統(tǒng)工作流程 上述的功能流程圖說(shuō)明了系統(tǒng)的主要功能模塊之間的調(diào) 用關(guān)系。在具體的系統(tǒng)運(yùn)行過(guò)程中,其工作流程如圖5所示。 (1)系統(tǒng)首先從原始URL列表將原始URL注入WebDB: (2)系統(tǒng)從WebDB生成FetchList,即抓取列表,其中包含 系統(tǒng)本輪需要抓取的URL: (3)爬蟲(chóng)Fetchers調(diào)用FetchList,對(duì)其中每一個(gè)URL進(jìn)行 抓取,抓取得到的數(shù)據(jù)通過(guò)解析器Parser進(jìn)行解析與中文分
萬(wàn)方數(shù)據(jù)
542
2011,V01.32,No.2
計(jì)算機(jī)工程與設(shè)計(jì)Computer
Engineering and Design
圖5系統(tǒng)工作流程 詞等工作; “)解析得到的數(shù)據(jù)送入主題過(guò)濾器,如果主題過(guò)濾器判 斷某一個(gè)頁(yè)面與主題無(wú)關(guān),系統(tǒng)將會(huì)丟棄它; (5)主題過(guò)濾器處理后的數(shù)據(jù)分成兩個(gè)部分,一部分是頁(yè) 面中提取出的URL送入更新器Updates提交到WebDB中,準(zhǔn)備 進(jìn)行下一輪抓取,另一部分是頁(yè)面信息送入Content進(jìn)行存儲(chǔ)。 (6)Content中存儲(chǔ)的數(shù)據(jù)送入索引器進(jìn)行索引,索引結(jié)果 將被保存: (7)用戶可以通過(guò)WebServer?qū)λ饕^(guò)的數(shù)據(jù)進(jìn)行檢索。 其中:(1)到(6)是提供查詢用戶服務(wù)前的工作。系統(tǒng)反復(fù) 進(jìn)行(2)到(6)可以通過(guò)一輪一輪的抓取,不斷擴(kuò)展系統(tǒng)中的 數(shù)據(jù)量。 3.2運(yùn)行流程 該系統(tǒng)在建立之初已經(jīng)把目標(biāo)領(lǐng)域定位為港口物流信息 的搜索,因此初次運(yùn)行時(shí)需要首先確定與本領(lǐng)域相關(guān)的主題 詞和起始URL列表,然后將其加入系統(tǒng)的配置文件中,本文 實(shí)現(xiàn)的系統(tǒng)提供了一個(gè)配置工具以方便系統(tǒng)管理員維護(hù)主題 詞和URL列表。這樣系統(tǒng)管理員就可以運(yùn)行系統(tǒng)的爬蟲(chóng),從 互聯(lián)網(wǎng)上爬取與主題相關(guān)的網(wǎng)頁(yè),建立索引,為用戶提供檢索 服務(wù)。隨著時(shí)間的推移,必然會(huì)有新的網(wǎng)頁(yè)加入的互聯(lián)網(wǎng)中, 同時(shí)已經(jīng)保存并建立索引的網(wǎng)頁(yè)也有可能被原始網(wǎng)站刪除或 修改,這就需要更新爬取,加入新的網(wǎng)頁(yè),處理失效的鏈接網(wǎng) 頁(yè)等。運(yùn)行流程圖如圖6所示。 3.3實(shí)際運(yùn)行 以下是實(shí)際運(yùn)行時(shí)的界面: (1)主題詞和起始URL配置界面 系統(tǒng)配置工具如圖7所示。 在“主題詞管理”欄可以添加、修改主題詞和權(quán)垂,也可以 刪除主題詞:在。起始URL管理”欄可以打開(kāi)起始uRL文件, 在其中添加或者刪除起始URL-在“運(yùn)行管理”欄可以點(diǎn)擊。初 次運(yùn)行”按鈕或“更新”按鈕。已開(kāi)啟cygwin的命令行界面。 (2)爬蟲(chóng)運(yùn)行界面 Nutch是為在Linux系統(tǒng)下運(yùn)行而開(kāi)發(fā)的。因此在Windows 下需要安裝cygwin工具來(lái)模擬Linux環(huán)境才能使用Nutch。 3.4測(cè)試結(jié)果與分析 在實(shí)際情況下很難計(jì)算一個(gè)垂直搜索引擎的查全率,因 為根本無(wú)法計(jì)算一個(gè)互聯(lián)網(wǎng)E有多少主題相關(guān)頁(yè)面,同時(shí)本 文設(shè)計(jì)的垂直搜索引擎的目的是為了讓返l口]的結(jié)果集中含有 更多與主題相關(guān)的信息,所以在這里只用查準(zhǔn)確率來(lái)評(píng)價(jià)系 統(tǒng)性能。 (下轉(zhuǎn)第548頁(yè))
圖7系統(tǒng)配置工具
翟蘆
圖6系統(tǒng)運(yùn)行步驟
萬(wàn)方數(shù)據(jù)
548
201 I,V01.32,No.2
計(jì)算機(jī)工程與設(shè)計(jì)Computer
Engineering and Design
統(tǒng)開(kāi)發(fā),為校園網(wǎng)提供了可擴(kuò)展、面向服務(wù)的管理平臺(tái),也為 利用SOA方法解決其它行業(yè)的需求提供了很好的參考。
參考文獻(xiàn):
【1】
Mark D Hansen.使用Java Web服務(wù)構(gòu)建SOA【M】.北京:電子
工業(yè)出版社,2009.
【2】
劉賢梅,劉茜,徐鋒,等.基于SOA的企業(yè)應(yīng)用集成模型的研究
圖9使…。cnent與windows環(huán)境中㈣愷最姬吲罷茹慧三蘭0=篇竺:一嘶。眥。
features-and—functional—concepts,2006?04-14。
eoncepts[EB/OL].http://uddi.xml.org/introductionuddi-important-
【4】
Shallid Ahmed.Xfire:The easy and simple way
to
develop web
services。JavaWord.com[EB/OL].http://www.javaworld.eom/ja— vaworld/jW一05—2006aw.0501一xfire.htm,2007-09—10. [5】 【6】 圖10使用Ping工具探測(cè)對(duì)拓?fù)渲械脑O(shè)備 【7】 部分:中央服務(wù)器、網(wǎng)絡(luò)狀態(tài)探測(cè)框架、拓?fù)渚庉嬈。運(yùn)維平 臺(tái)使用服務(wù)封裝了各種嘲絡(luò)管理功能,并將這蝗服務(wù)在中央 服務(wù)器上進(jìn)行發(fā)布;實(shí)現(xiàn)了可拓展可編程的網(wǎng)絡(luò)狀態(tài)探測(cè)框架 NSDI.開(kāi)發(fā)了界面友好功能強(qiáng)大的圖形化拓?fù)渚庉嬈鳎梢员O(jiān) 控和管理網(wǎng)絡(luò)拓?fù)。本文將SOA的設(shè)計(jì)理論應(yīng)用于實(shí)際的系 [81 陳明.網(wǎng)絡(luò)協(xié)議教程【M1.jE京:清華大學(xué)出版社,2004. 黃曉波,潘雪增.網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)的算法和實(shí)現(xiàn)【J】.計(jì)算機(jī)應(yīng)用與 軟件'2007,24(7):159-16l? 冀汶莉,李勇軍.Transit.Stub網(wǎng)絡(luò)拓?fù)淇梢暬芯俊荆省浚㈦娮訉W(xué) 與計(jì)算機(jī),2007,24(1):136?139. 石永革,陳曉瑤.網(wǎng)絡(luò)拓?fù)渌阉魉惴ǖ姆治雠c優(yōu)化[J】.計(jì)算機(jī)工 程與設(shè)計(jì),2007,28(12):2828.2850. 【9】李安渝.Web service技術(shù)與實(shí)現(xiàn)【M】.北京:國(guó)防工業(yè)出版社。
2003.
(上接第542頁(yè))
為了說(shuō)明本系統(tǒng)的主題搜索性能,選擇通用搜索引擎 Google對(duì)關(guān)鍵詞“港口物流”進(jìn)行搜索,同時(shí)使用本系統(tǒng)進(jìn)行 同樣的搜索,對(duì)兩個(gè)系統(tǒng)結(jié)果集的前200個(gè)頁(yè)面進(jìn)行了主題相 關(guān)度評(píng)價(jià),與通用搜索引擎的比較,對(duì)比數(shù)據(jù)結(jié)果如表l所示。 表l與通用搜索引擎比
搜索0I擎 棚莢時(shí)間
本文提出的港口物流信息垂寅搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)方案是 切實(shí)可行的,系統(tǒng)基本達(dá)到了預(yù)期設(shè)計(jì)目標(biāo)。該系統(tǒng)的研究 促進(jìn)了港口物流信息化的發(fā)展并對(duì)該領(lǐng)域的從業(yè)人員起到了 很好的幫助作用。但是還有一些需要改進(jìn)的地方,例如進(jìn)一 步提高主題判別的準(zhǔn)確度等。
l土趣相關(guān)嗍貞數(shù)J
89
轟準(zhǔn)率
參考文獻(xiàn):
【l】 【21 徐和祥.DeepWeb集成中若干技術(shù)研究【C】.復(fù)黽大學(xué)。2008. http://incubator.apache.org/nuteh/apidoes[EB/OL]. 李軍'黃海寬,曹琦.基于支持向黿機(jī)的中藥工藝參數(shù)優(yōu)化研究 【J】.計(jì)算機(jī)工程與應(yīng)用,2007,43(36):205.207. f4】 申晉.基于Lucene和Nutch的林業(yè)垂直搜索引擎的研建【J】.農(nóng) 業(yè)網(wǎng)絡(luò)信息,2008(4):16-18. 【51 余棟柱.用Nuteh構(gòu)建垂直搜索引擎的方案【J】.工程技術(shù),2009
(14):118.120.
Google
0.2Is
44.5%
實(shí)驗(yàn)結(jié)果表明,港口物流信息垂直搜索引擎具有明顯的 主題傾向性,結(jié)果的查準(zhǔn)率優(yōu)于通用搜索引擎。但是系統(tǒng)在 搜索速度上不如商業(yè)搜索引擎.這是因?yàn)椋危酰簦悖杷捎玫拈_(kāi)發(fā) 語(yǔ)言和其算法沒(méi)有Google高效以及實(shí)驗(yàn)系統(tǒng)本身的硬件性 能限制。 綜I二,本文系統(tǒng)初步達(dá)到了在單臺(tái)服務(wù)器下能夠比較準(zhǔn) 確的搜索出與港口物流主題相關(guān)信息的設(shè)計(jì)要求,可以進(jìn)行 進(jìn)一步的改進(jìn)和實(shí)旖應(yīng)用。
【3】
【6】
王仕仲,寧龍兵.基于Nutch的中文搜索引擎的研究與實(shí)現(xiàn)【J】.
電腦開(kāi)發(fā)與應(yīng)用,2009(7):76--79.
【7】
張錦忻.基于Nutch的中文搜索引擎的構(gòu)建【J】.圖書(shū)館研究與
4結(jié)束語(yǔ)
本文提出了一種基于開(kāi)源Nutch平臺(tái)的垂直搜索引擎解 決方案,研究并實(shí)現(xiàn)了港口物流信息垂直搜索引擎,實(shí)驗(yàn)證明 【8J
工作2009(”:彈57.
張斌,周爾寧.基于Nutch的分布式紡織垂直搜索引擎研究【JJ. 電腦知識(shí)與技術(shù),2009(21):5785-5787.
萬(wàn)方數(shù)據(jù)
基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)
作者: 作者單位: 刊名: 英文刊名: 年,卷(期): 被引用次數(shù): 邵秀麗, 劉彬, 張濤, SHAO Xiu-li, LIU Bin, ZHANG Tao 南開(kāi)大學(xué)信息技術(shù)科學(xué)學(xué)院,天津,300071 計(jì)算機(jī)工程與設(shè)計(jì) COMPUTER ENGINEERING AND DESIGN 2011,32(2) 2次
參考文獻(xiàn)(8條) 1.徐和祥 DeepWeb集成中若干技術(shù)研究 2008 2.查看詳情 3.李軍;黃海寬;曹琦 基于支持向量機(jī)的中藥工藝參數(shù)優(yōu)化研究[期刊論文]-計(jì)算機(jī)工程與應(yīng)用 2007(36) 4.申晉 基于Lucene和Nutch的林業(yè)垂直搜索引擎的研建[期刊論文]-農(nóng)業(yè)網(wǎng)絡(luò)信息 2008(04) 5.余棟柱 用Nutch構(gòu)建垂直搜索引擎的方案 2009(14) 6.王仕仲;寧龍兵 基于Nutch的中文搜索引擎的研究與實(shí)現(xiàn)[期刊論文]-電腦開(kāi)發(fā)與應(yīng)用 2009(07) 7.張錦炘 基于Nutch的中文搜索引擎的構(gòu)建 2009(01) 8.張斌;周爾寧 基于Nutch的分布式紡織垂直搜索引擎研究[期刊論文]-電腦知識(shí)與技術(shù) 2009(21)
本文讀者也讀過(guò)(3條) 1. 趙德平.劉陽(yáng).李鵬.MAO Deping.LIU Yang.LI Peng 基于Lucene的房產(chǎn)信息垂直搜索引擎的研究[期刊論文]-沈 陽(yáng)建筑大學(xué)學(xué)報(bào)(自然科學(xué)版)2011,27(1) 2. 王夢(mèng)溪.王斌.WANG Meng-xi.WANG Bin 基于標(biāo)簽的垂直搜索研究及在視頻搜索中的應(yīng)用[期刊論文]-儀表技術(shù) 2011(5) 3. 羅立宏.陳志.LUO Li-hong.CHEN Zhi 基于語(yǔ)義分析的垂直搜索網(wǎng)絡(luò)蜘蛛[期刊論文]-計(jì)算機(jī)工程與設(shè)計(jì) 2008,29(18)
引證文獻(xiàn)(5條) 1.郭曉霞.王磊.席巖.王曉艷.汪瑛 基于網(wǎng)絡(luò)的視頻內(nèi)容檢索與盜版追蹤溯源研究[期刊論文]-廣播與電視技術(shù) 2011(7) 2.陳建峽.李倩倩.王春枝 基于Nutch搜索引擎的E-learning系統(tǒng)開(kāi)發(fā)[期刊論文]-湖北工業(yè)大學(xué)學(xué)報(bào) 2011(5) 3.陳誠(chéng) 基于云計(jì)算的智慧城市垂直搜索技術(shù)研究[期刊論文]-軟件產(chǎn)業(yè)與工程 2012(4) 4.王燕平 基于文獻(xiàn)計(jì)量的我國(guó)搜索引擎研究現(xiàn)狀和熱點(diǎn)分析[期刊論文]-現(xiàn)代情報(bào) 2012(7) 5.陳誠(chéng) 基于云計(jì)算的智慧城市垂直搜索技術(shù)研究[期刊論文]-軟件產(chǎn)業(yè)與工程 2012(4)
本文鏈接:
本文關(guān)鍵詞:基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):196849
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/196849.html