基于Nutch的垂直搜索引擎的設計和實現(xiàn)
本文關(guān)鍵詞:基于Nutch的垂直搜索引擎的設計和實現(xiàn),由筆耕文化傳播整理發(fā)布。
計算機工程與設計ComputerEngineering
and Design
2011,V01.32,No.2
539
基于Nutch的垂直搜索引擎的設計和實現(xiàn)
邵秀麗,
劉 彬, 張
濤
(南開大學信息技術(shù)科學學院,天津3000
71)
摘要:為了提高搜索引擎的主題傾向性和準確率,在Nutch平臺上實現(xiàn)了帶有中文分詞插件的垂直搜索引擎,給出了改進 后引擎的系統(tǒng)功能和體系結(jié)構(gòu),并從用例角度分析了系統(tǒng)的功能,介紹了基于該體系結(jié)構(gòu)實現(xiàn)的港口物流信息垂直搜索引 擎以及和一般引擎運行情況的比較.實驗結(jié)果表明,這些改進提高了主題判別的準確度和效率,使信息的定位和查找更加 精確,減少了不相關(guān)信息的干擾,并提高了系統(tǒng)對于互聯(lián)網(wǎng)復雜環(huán)境的處理能力. 關(guān)鍵詞:Nutch平臺;垂直搜索;體系結(jié)構(gòu):用例分析;主題搜索 中圖法分類號:TP311.52 文獻標識碼:A 文章編號:1000.7024(201I)02.0539.04
Design and implementation of vertical search engine based
SHAO Xiu.1i. LIu Bin, ZHANG Tao
on
Nutch
(College ofInformation Technical Science,Nankai
Abstract:In order to improve
University,Tianjin 300071,China)
search engine with Chinese plug—in based
and
Oil
subjeCt tendence and
correct rate
of search engine,vertical
structure
Nutch is implemented.The engine’S improved system function and system using is analyzed.It also introduces
is
given
the system function from the point of
structure
the port logistics information vertical search engine based on this system
and compares
with
general engine’S running conditions.The experimental result shows these improvemenB reduce the interference
ofirrelevant
information
and
improve the system ability to deal with complex environment of
Intemet.
Key words:nutch
platform;vertical
search;system structure;case analyse;subject search
0引
言
索引擎oI。只要對其一些功能根據(jù)需要進行功能改進就可以獲 得效果提升。因此,本文對其幾個主要功能做了改進,例如, 在Nuteh平臺上增加了中文分詞插件,從而使Nutch具有中文信 息處理能力:此外,在系統(tǒng)實現(xiàn)中采用了基于向量空間模型Ⅲ的 主題相似度判別算法,并對該算法進行改進.加入元數(shù)據(jù)判別 機制和重要標簽所包含關(guān)鍵詞的加權(quán)處理。分析了“隧道現(xiàn) 象”的成閃和日前的處理方式。在Nutch原有的爬蟲部分源代 碼加入“隧道處理”機制,以處理主題網(wǎng)頁分離的問題,并且修 改了檢索結(jié)果排序的源代碼,在原有的基于鏈接相似度評分 的基礎t加入了根據(jù)貞面主題相似度評分,使其更適應垂直 搜索引擎的要求”1。本文主要就改進的Nutch體系結(jié)構(gòu)、用例 分析功能模塊、從系統(tǒng)用戶和主要功能流程之間的關(guān)聯(lián)等方 面進行分析。并給出了運行效果,給出了基于Nutch構(gòu)建的港 口物流信息垂直搜索引擎Ⅲ,從而實現(xiàn)了多個港口物流信息的 快捷查詢和共享。
垂直搜索引擎是針對某一行業(yè)或組織,以構(gòu)筑某行業(yè)或 組織的網(wǎng)絡信息資源庫為目標來滿足行業(yè)專業(yè)需求或者組織 某項業(yè)務需求,智能地在瓦聯(lián)網(wǎng)卜搜集符合某一專題需要的 信息資源。是通用搜索引擎的細化和延伸….它對網(wǎng)頁庫中的 某類爭業(yè)信息進行整合,分字段抽取出用戶需要的數(shù)據(jù),處理 后以某種形式返【nl給用戶。能夠為包括學科信息門戶、專業(yè) 信息機構(gòu)、特定行業(yè)領域、公司信息中心、行業(yè)專家等等在內(nèi) 的信息用戶.提供整套的網(wǎng)絡信息資源開發(fā)力.案。由此可見 垂直搜索引擎是更有針對性的搜索引擎.它只搜索特定主題 的信息“1。在國內(nèi)外,關(guān)于垂直搜索引擎的研究成為一個新的 熱點,出現(xiàn)了許多有具有代表性的應用系統(tǒng)科學搜索引擎Sci. ms、Berkeley的Focuseroject等。而港口物流信息都集中在各 自的門戶網(wǎng)站中,形成了一個個孤島,無法讓用戶集中深入的 獲取到各個主要港口的物流信息。因此。本文構(gòu)建港口物流 信息垂直搜索引擎,以實現(xiàn)港u物流信息的快捷臺詢和共事。 本文實現(xiàn)的系統(tǒng)是在Nutch的基礎卜進行擴展和修改的, Nutch是Apache軟件基金會提供的一個開放源代碼的Web搜
收稿日期:2010.02.10:修訂日期:2010-04.26. 基金項目:困家科技支撐計劃肇金鶯人項目(2007BAHIOBOI)。
l系統(tǒng)功能和體系結(jié)構(gòu)
1.1
Nutch體系架構(gòu) Nutch作為一個搜索引擎,其基本組成也同其它搜索引擎
作者簡介:邵秀麗(1963--).女.天津人,教授.研究力.向為網(wǎng)格計算、軟件T程等l 向為軟件上程、數(shù)據(jù)挖掘;
劉彬(1984一),男。河北安新人,碩+研究生,研究方
張濤(1983--),男,河北邯鄲人,碩士研究生,研究方向為軟件上程。E-maih shaoxl【@nankai.cdu.cn
萬方數(shù)據(jù)
540
2011,V01.32,No.2
計算機工程與設計Computer
Engineering and Design
一樣。簡單的說,包括爬蟲,索引和搜索3部分。其體系結(jié)構(gòu) 圖如圖l所示。
頁面的鏈接,將其更新到數(shù)據(jù)庫中(updatedb); (6)重復進行3~5的步驟,直到預先設定的抓取深度。這
個循環(huán)過程被稱為“產(chǎn)生/抓。隆毖h(huán)。根據(jù)segments的
內(nèi)容更新LinkDB數(shù)據(jù)庫(invertlinks);
(7)建立索引,對每個Segment生成一個索引(index);
(8)從這些索引中刪除冗余的網(wǎng)頁和URL; (9)把所有這些小索引合并成一個大的索引,用來搜索; (10)用戶通過用戶接口進行查詢操作; (11)將用戶查詢轉(zhuǎn)化為Lucene查詢; (12)返回結(jié)果。
其中:(1)--(6)屬于爬蟲部分,(7H9)屬于索引部分,(10卜
02)屬于查詢部分。 1.2改進系統(tǒng)的功能
圖l
Nutch體系結(jié)構(gòu)
按照搜索引擎的一般結(jié)構(gòu),本文系統(tǒng)設計分為搜索引擎 內(nèi)核部分和輔助功能部分01。通常需要有維護人員進行一系 列的管理和設置工作,控制系統(tǒng)協(xié)調(diào)高效的工作。改進系統(tǒng) 的功能設計框架如圖2所示。
Nutch由4個主要的數(shù)據(jù)結(jié)構(gòu)提供數(shù)據(jù)支撐,分別是Web-
DB、LinkDB、Segments和Index。
(I)WebDB用來存儲從抓取開始(包括重新抓。┛吹降乃 有URL的相關(guān)信息。這些信息包括狀態(tài)、抓取的時間、重試 的次數(shù)、分數(shù)、簽名、修改的時間、元數(shù)據(jù)等。狀態(tài)有未抓取、 己抓取、成功抓取、需要重試等。 (2)Linl①B用來存儲鏈接信息。對于每一個URL,在這個 數(shù)據(jù)庫中都有一項與之對應,該項的數(shù)據(jù)包括該URL。連向該 URL的所有URL及其錨文本。這個數(shù)據(jù)結(jié)構(gòu)可以迅速找到 一個URL的所有父頁面的URL,也可以用它來計算所有頁面 的PageRank值。 (3)Segments包含若干個Segment,由于Nutch爬蟲的抓取 方式是采用廣度優(yōu)先搜索來抓取互聯(lián)網(wǎng)上的頁面。所以它的
圈 臣圃臣團 圈 巨圃臣圃巨固匿圃匿圃
圖2本系統(tǒng)功能框架 按照與搜索引擎結(jié)合的緊密程度,主題管理、資源發(fā)現(xiàn)、 檢索結(jié)果顯示等內(nèi)容屬于輔助部分;網(wǎng)絡爬蟲、網(wǎng)頁分析、主 題過濾、網(wǎng)頁索引、網(wǎng)頁檢索等內(nèi)容屬于搜索引擎的內(nèi)核部 分。由于Nutch平臺已經(jīng)提供了其中的大部分功能,這樣就可 以集中精力開發(fā)滿足特定需要的功能模塊。 1.3系統(tǒng)的體系結(jié)構(gòu) 該系統(tǒng)的體系結(jié)構(gòu)如圖3所示。它的功能流程如下:利 用Nutch的網(wǎng)絡爬蟲獲。鳎澹饩W(wǎng)頁,并對其進行解析。每當獲 得一定數(shù)量的網(wǎng)頁后就對這些獲取的網(wǎng)頁文檔進行主題相關(guān) 性判斷,如果該文檔與主題相關(guān):一方面反作用于網(wǎng)絡爬蟲, 沿著該URL信息繼續(xù)爬行,如果不相關(guān)則放棄當前的頁面, 但是把該頁面中的URL放入URL候選隊列中,用來爬取可能 的主題頁面:另一方面把那些與主題相關(guān)的文檔調(diào)用Nutch的 索引器來建立索引。搜索器及用戶界面仍然采用Nutch的原 有的結(jié)構(gòu)。 有底色背景的模塊是本文引擎對Nutch重點實現(xiàn)或改進 的部分: (I)頁面分析模塊:在Nutch基礎上加入中文分詞插件,以 實現(xiàn)中文分詞功能。 (2)頁面過濾模塊:修改Nutch代碼加入主題相似度判別 功能,以實現(xiàn)對網(wǎng)頁主題進行相似度判定和過濾。
抓取是一層一層,每一層就對應一個Segment。一個Segment
里面又包括crawl—generate,crawl-fetch,c.ontent,parse-text,parse,- dam,crawl—parse等文件夾。crawl.generate里面存放的是待抓 取的URL列表,crawl.fetch里面存放的是抓取下來的uRL的 信息屬性,content里面存放的是抓下來的網(wǎng)頁內(nèi)容,parse-text 里面存放的是解析網(wǎng)頁所獲得的網(wǎng)頁文本,parse-data里面存 放的是解析網(wǎng)頁所獲得的網(wǎng)頁數(shù)據(jù),crawl-parse里面存放的是 抓下來的頁面的一些信息屬性。 (4)Index里面存放的是對抓取下來的網(wǎng)頁建立索引后的 文件。Nutch使用Lucene來建立索引,Lucene是Apache軟件 基金會Jakarta項目組的子項目,它不是一個完整的全文索引 系統(tǒng),而是一個用Java寫的全文索引引擎工具包.提供了多個 AP!函數(shù)和靈活的數(shù)據(jù)存儲結(jié)構(gòu),可以方便嵌入到各種應用中 實現(xiàn)針對應用的全文索引和檢索。 在此基礎上,其整個的工作流程可以分為如下幾步: (1)建立初始URL集: (2)將初始URL集注入到crawldb數(shù)據(jù)庫中(inject),整個網(wǎng) 頁抓取過程將會從這些種子URL開始抓取,慢慢延伸到整個 互聯(lián)網(wǎng);蛘咧钡接脩糁付ǖ淖ト訑(shù)停止: (3)根據(jù)crawldb數(shù)據(jù)庫創(chuàng)建抓取列表(generate): “)執(zhí)行抓取,獲取網(wǎng)頁信息(fetch): (5)更新數(shù)據(jù)庫,被抓下來的網(wǎng)頁中包含有大量指向其它
萬方數(shù)據(jù)
邵秀麗,劉彬,張濤:基于Nutch的垂直搜索引擎的設計和實現(xiàn)
(3)鏈接過濾模塊:修改Nutch代碼加入處理“隧道現(xiàn)象” 的功能,從而使爬蟲可以爬取被無用頁面分隔的豐題頁面。
201 l,V01.32,No.2
541
內(nèi)容解析功能,通常還包括內(nèi)容的模板化提取?梢缘玫礁 為精細的網(wǎng)頁內(nèi)容,減少內(nèi)容無關(guān)和垃圾信息的影響。 (6)t題相關(guān)度判定:針對下載的嘲頁的實際內(nèi)容,,判斷其 與主題的相關(guān)性和相似度。根據(jù)相似程度判斷是甭刪除或保留。 (7)主題索引建立:索引部分町以采用一般的通用搜索引 擎存儲格式,在這里采用Nutch中集成的Lucene提供索引建 立功能。 (8)主題檢索服務:提供領域信息的檢索服務,為用戶提供
(4)Nutch檢索器:修改Nu劬代碼在原有的檢索結(jié)果排序
的基礎七加入頁面主體相似性因素,使相關(guān)度高的結(jié)果優(yōu)先 顯示給用戶。
初始URL列表 貝面聚集模塊
更加及時有效的信息,同時減少無關(guān)信息,方便用戶快速定位 資源,滿足用戶信息獲取的需要。 本文開展的對Nutch的改進工作內(nèi)容主要有(這里簡單介 紹,有關(guān)內(nèi)容,請看本課題組發(fā)表的其它論文): (1)Nutch工作原理的分析
面唄H‘加入N頁u髫糕㈣H頁噗
\…”。 !美簍釜H竺
‘修改Nutcb代碼)l’
鏈接過濾模塊 (修改Nutch代碼)
Nutch的工作分為3個階段:抓取、索引和檢索。抓取階 段取得網(wǎng)頁并把他們處理成倒排索引。后面檢索階段的工作
—Nu意tch翮
索‘I器 Nutch霞0I教槲庫
。囂曲Nu榆tch勰,恒
‘修段 代碼)I
URL隊列
基于這哆索引來進行。 (2)中文分詞插件的實現(xiàn) 中文分詞是中文垂直搜索引擎中的一個關(guān)鍵技術(shù),分詞 的好壞直接影響提取文本的精確度。Nutch是針對英文開發(fā)
用戶
l::=:=::
的,因此,本文系統(tǒng)在此基礎上修改內(nèi)部代碼,以實現(xiàn)中文分 詞的功能。 (3)主題相似度判別的實現(xiàn) 現(xiàn)在應用于主題相似度判別的技術(shù)有很多,主要有:元數(shù)
圖3本系統(tǒng)體系結(jié)構(gòu)
2系統(tǒng)的用例模型
根據(jù)用戶和系統(tǒng)的需求,創(chuàng)建用例圖來描述垂直搜索引 擎的軟件功能模塊,以及這些模塊之間的調(diào)用關(guān)系。系統(tǒng)使 用者和外部通信目標包括:查詢用戶、系統(tǒng)管理員。查詢用戶 通過系統(tǒng)進行檢索;系統(tǒng)管理員維護系統(tǒng)運行,進行抓取、預 處理等[作。從垂直搜索引擎的這個結(jié)構(gòu)和功能進行分析, 得到的用例圖如圖4所示。
據(jù)判別技術(shù),擴展元數(shù)據(jù)判別技術(shù),頁面間鏈接分析技術(shù),頁 面語義信息分析技術(shù)。本文系統(tǒng)在充分利用Nutch提供的鏈 接分析技術(shù)的基礎上整合了頁面語義信息的分析判別技術(shù), 并增加了元數(shù)據(jù)的判別。在構(gòu)造頁面關(guān)鍵詞向量空間時對重 要標簽所包含關(guān)鍵詞進行了加權(quán)處理,提高了主題相似度判 別的準確率和效率。 (4)隧道穿越的實現(xiàn)
≮畫爹@≤多 菩:暑晷
@
⑧
圖4
由于商業(yè)競爭和其它的原因,各個門戶網(wǎng)站之間很少會 有超鏈接直接相連,從而可能造成爬蟲抓取不到相關(guān)的網(wǎng)頁。 本文提出了一種優(yōu)先度遞減和URL黑名單結(jié)合的方式來處 理該問題。 (5)Nutch結(jié)果排序算法的改進 Nutch的排序是針對通用搜索引擎設計的,采用了類似 PageRank的結(jié)果評分機制,只考慮了URL的重要程度而沒有 考慮頁面信息的蘑要程度.本文通過修改Nutch的排序源碼將 URL和頁I亙i的蕈要程度都引入到結(jié)果的排序中.從而提高了
系統(tǒng)用例圖
針對用例的功能描述如下: (1)系統(tǒng)管理控制:為管理員提供參數(shù)設置和內(nèi)容管理功 能,能夠靈活挖制資源的訪問和系統(tǒng)的內(nèi)容屬性等相關(guān)信息。 (2)一lj題側(cè)管理:提供主題詞管理界面,系統(tǒng)管理員可以維 護一份選定的E題詞列表,其功能操作包括添加、修改、刪除 主題詞,為:i:題側(cè)設置權(quán)霞。 (3)辛題資源發(fā)現(xiàn):即起始URL列表的選擇,要求能及時、 有效的自動裔找、增加相關(guān)的信息內(nèi)容。 (4)t-.題資源F載:定向F載的9【)9絡爬蟲為垂汽搜索引擎 提供盡可能榭哭的原始網(wǎng)頁,同時要爆最避免下載尤關(guān)的數(shù)據(jù)。 (5)文本分析:文本分析挺供針對特定領域和l=I標的文本
結(jié)果顯示的質(zhì)量,增強了用戶的檢索體驗。
3
系統(tǒng)實現(xiàn)
3.1系統(tǒng)工作流程 上述的功能流程圖說明了系統(tǒng)的主要功能模塊之間的調(diào) 用關(guān)系。在具體的系統(tǒng)運行過程中,其工作流程如圖5所示。 (1)系統(tǒng)首先從原始URL列表將原始URL注入WebDB: (2)系統(tǒng)從WebDB生成FetchList,即抓取列表,其中包含 系統(tǒng)本輪需要抓取的URL: (3)爬蟲Fetchers調(diào)用FetchList,對其中每一個URL進行 抓取,抓取得到的數(shù)據(jù)通過解析器Parser進行解析與中文分
萬方數(shù)據(jù)
542
2011,V01.32,No.2
計算機工程與設計Computer
Engineering and Design
圖5系統(tǒng)工作流程 詞等工作; “)解析得到的數(shù)據(jù)送入主題過濾器,如果主題過濾器判 斷某一個頁面與主題無關(guān),系統(tǒng)將會丟棄它; (5)主題過濾器處理后的數(shù)據(jù)分成兩個部分,一部分是頁 面中提取出的URL送入更新器Updates提交到WebDB中,準備 進行下一輪抓取,另一部分是頁面信息送入Content進行存儲。 (6)Content中存儲的數(shù)據(jù)送入索引器進行索引,索引結(jié)果 將被保存: (7)用戶可以通過WebServer?qū)λ饕^的數(shù)據(jù)進行檢索。 其中:(1)到(6)是提供查詢用戶服務前的工作。系統(tǒng)反復 進行(2)到(6)可以通過一輪一輪的抓取,不斷擴展系統(tǒng)中的 數(shù)據(jù)量。 3.2運行流程 該系統(tǒng)在建立之初已經(jīng)把目標領域定位為港口物流信息 的搜索,因此初次運行時需要首先確定與本領域相關(guān)的主題 詞和起始URL列表,然后將其加入系統(tǒng)的配置文件中,本文 實現(xiàn)的系統(tǒng)提供了一個配置工具以方便系統(tǒng)管理員維護主題 詞和URL列表。這樣系統(tǒng)管理員就可以運行系統(tǒng)的爬蟲,從 互聯(lián)網(wǎng)上爬取與主題相關(guān)的網(wǎng)頁,建立索引,為用戶提供檢索 服務。隨著時間的推移,必然會有新的網(wǎng)頁加入的互聯(lián)網(wǎng)中, 同時已經(jīng)保存并建立索引的網(wǎng)頁也有可能被原始網(wǎng)站刪除或 修改,這就需要更新爬取,加入新的網(wǎng)頁,處理失效的鏈接網(wǎng) 頁等。運行流程圖如圖6所示。 3.3實際運行 以下是實際運行時的界面: (1)主題詞和起始URL配置界面 系統(tǒng)配置工具如圖7所示。 在“主題詞管理”欄可以添加、修改主題詞和權(quán)垂,也可以 刪除主題詞:在。起始URL管理”欄可以打開起始uRL文件, 在其中添加或者刪除起始URL-在“運行管理”欄可以點擊。初 次運行”按鈕或“更新”按鈕。已開啟cygwin的命令行界面。 (2)爬蟲運行界面 Nutch是為在Linux系統(tǒng)下運行而開發(fā)的。因此在Windows 下需要安裝cygwin工具來模擬Linux環(huán)境才能使用Nutch。 3.4測試結(jié)果與分析 在實際情況下很難計算一個垂直搜索引擎的查全率,因 為根本無法計算一個互聯(lián)網(wǎng)E有多少主題相關(guān)頁面,同時本 文設計的垂直搜索引擎的目的是為了讓返l口]的結(jié)果集中含有 更多與主題相關(guān)的信息,所以在這里只用查準確率來評價系 統(tǒng)性能。 (下轉(zhuǎn)第548頁)
圖7系統(tǒng)配置工具
翟蘆
圖6系統(tǒng)運行步驟
萬方數(shù)據(jù)
548
201 I,V01.32,No.2
計算機工程與設計Computer
Engineering and Design
統(tǒng)開發(fā),為校園網(wǎng)提供了可擴展、面向服務的管理平臺,也為 利用SOA方法解決其它行業(yè)的需求提供了很好的參考。
參考文獻:
【1】
Mark D Hansen.使用Java Web服務構(gòu)建SOA【M】.北京:電子
工業(yè)出版社,2009.
【2】
劉賢梅,劉茜,徐鋒,等.基于SOA的企業(yè)應用集成模型的研究
圖9使…。cnent與windows環(huán)境中㈣愷最姬吲罷茹慧三蘭0=篇竺:一嘶。眥。
features-and—functional—concepts,2006?04-14。
eoncepts[EB/OL].http://uddi.xml.org/introductionuddi-important-
【4】
Shallid Ahmed.Xfire:The easy and simple way
to
develop web
services。JavaWord.com[EB/OL].http://www.javaworld.eom/ja— vaworld/jW一05—2006aw.0501一xfire.htm,2007-09—10. [5】 【6】 圖10使用Ping工具探測對拓撲中的設備 【7】 部分:中央服務器、網(wǎng)絡狀態(tài)探測框架、拓撲編輯器。運維平 臺使用服務封裝了各種嘲絡管理功能,并將這蝗服務在中央 服務器上進行發(fā)布;實現(xiàn)了可拓展可編程的網(wǎng)絡狀態(tài)探測框架 NSDI.開發(fā)了界面友好功能強大的圖形化拓撲編輯器,可以監(jiān) 控和管理網(wǎng)絡拓撲。本文將SOA的設計理論應用于實際的系 [81 陳明.網(wǎng)絡協(xié)議教程【M1.jE京:清華大學出版社,2004. 黃曉波,潘雪增.網(wǎng)絡拓撲發(fā)現(xiàn)的算法和實現(xiàn)【J】.計算機應用與 軟件'2007,24(7):159-16l? 冀汶莉,李勇軍.Transit.Stub網(wǎng)絡拓撲可視化研究【J】.微電子學 與計算機,2007,24(1):136?139. 石永革,陳曉瑤.網(wǎng)絡拓撲搜索算法的分析與優(yōu)化[J】.計算機工 程與設計,2007,28(12):2828.2850. 【9】李安渝.Web service技術(shù)與實現(xiàn)【M】.北京:國防工業(yè)出版社。
2003.
(上接第542頁)
為了說明本系統(tǒng)的主題搜索性能,選擇通用搜索引擎 Google對關(guān)鍵詞“港口物流”進行搜索,同時使用本系統(tǒng)進行 同樣的搜索,對兩個系統(tǒng)結(jié)果集的前200個頁面進行了主題相 關(guān)度評價,與通用搜索引擎的比較,對比數(shù)據(jù)結(jié)果如表l所示。 表l與通用搜索引擎比
搜索0I擎 棚莢時間
本文提出的港口物流信息垂寅搜索引擎的設計和實現(xiàn)方案是 切實可行的,系統(tǒng)基本達到了預期設計目標。該系統(tǒng)的研究 促進了港口物流信息化的發(fā)展并對該領域的從業(yè)人員起到了 很好的幫助作用。但是還有一些需要改進的地方,例如進一 步提高主題判別的準確度等。
l土趣相關(guān)嗍貞數(shù)J
89
轟準率
參考文獻:
【l】 【21 徐和祥.DeepWeb集成中若干技術(shù)研究【C】.復黽大學。2008. http://incubator.apache.org/nuteh/apidoes[EB/OL]. 李軍'黃海寬,曹琦.基于支持向黿機的中藥工藝參數(shù)優(yōu)化研究 【J】.計算機工程與應用,2007,43(36):205.207. f4】 申晉.基于Lucene和Nutch的林業(yè)垂直搜索引擎的研建【J】.農(nóng) 業(yè)網(wǎng)絡信息,2008(4):16-18. 【51 余棟柱.用Nuteh構(gòu)建垂直搜索引擎的方案【J】.工程技術(shù),2009
(14):118.120.
Google
0.2Is
44.5%
實驗結(jié)果表明,港口物流信息垂直搜索引擎具有明顯的 主題傾向性,結(jié)果的查準率優(yōu)于通用搜索引擎。但是系統(tǒng)在 搜索速度上不如商業(yè)搜索引擎.這是因為Nutch所采用的開發(fā) 語言和其算法沒有Google高效以及實驗系統(tǒng)本身的硬件性 能限制。 綜I二,本文系統(tǒng)初步達到了在單臺服務器下能夠比較準 確的搜索出與港口物流主題相關(guān)信息的設計要求,可以進行 進一步的改進和實旖應用。
【3】
【6】
王仕仲,寧龍兵.基于Nutch的中文搜索引擎的研究與實現(xiàn)【J】.
電腦開發(fā)與應用,2009(7):76--79.
【7】
張錦忻.基于Nutch的中文搜索引擎的構(gòu)建【J】.圖書館研究與
4結(jié)束語
本文提出了一種基于開源Nutch平臺的垂直搜索引擎解 決方案,研究并實現(xiàn)了港口物流信息垂直搜索引擎,實驗證明 【8J
工作2009(”:彈57.
張斌,周爾寧.基于Nutch的分布式紡織垂直搜索引擎研究【JJ. 電腦知識與技術(shù),2009(21):5785-5787.
萬方數(shù)據(jù)
基于Nutch的垂直搜索引擎的設計和實現(xiàn)
作者: 作者單位: 刊名: 英文刊名: 年,卷(期): 被引用次數(shù): 邵秀麗, 劉彬, 張濤, SHAO Xiu-li, LIU Bin, ZHANG Tao 南開大學信息技術(shù)科學學院,天津,300071 計算機工程與設計 COMPUTER ENGINEERING AND DESIGN 2011,32(2) 2次
參考文獻(8條) 1.徐和祥 DeepWeb集成中若干技術(shù)研究 2008 2.查看詳情 3.李軍;黃海寬;曹琦 基于支持向量機的中藥工藝參數(shù)優(yōu)化研究[期刊論文]-計算機工程與應用 2007(36) 4.申晉 基于Lucene和Nutch的林業(yè)垂直搜索引擎的研建[期刊論文]-農(nóng)業(yè)網(wǎng)絡信息 2008(04) 5.余棟柱 用Nutch構(gòu)建垂直搜索引擎的方案 2009(14) 6.王仕仲;寧龍兵 基于Nutch的中文搜索引擎的研究與實現(xiàn)[期刊論文]-電腦開發(fā)與應用 2009(07) 7.張錦炘 基于Nutch的中文搜索引擎的構(gòu)建 2009(01) 8.張斌;周爾寧 基于Nutch的分布式紡織垂直搜索引擎研究[期刊論文]-電腦知識與技術(shù) 2009(21)
本文讀者也讀過(3條) 1. 趙德平.劉陽.李鵬.MAO Deping.LIU Yang.LI Peng 基于Lucene的房產(chǎn)信息垂直搜索引擎的研究[期刊論文]-沈 陽建筑大學學報(自然科學版)2011,27(1) 2. 王夢溪.王斌.WANG Meng-xi.WANG Bin 基于標簽的垂直搜索研究及在視頻搜索中的應用[期刊論文]-儀表技術(shù) 2011(5) 3. 羅立宏.陳志.LUO Li-hong.CHEN Zhi 基于語義分析的垂直搜索網(wǎng)絡蜘蛛[期刊論文]-計算機工程與設計 2008,29(18)
引證文獻(5條) 1.郭曉霞.王磊.席巖.王曉艷.汪瑛 基于網(wǎng)絡的視頻內(nèi)容檢索與盜版追蹤溯源研究[期刊論文]-廣播與電視技術(shù) 2011(7) 2.陳建峽.李倩倩.王春枝 基于Nutch搜索引擎的E-learning系統(tǒng)開發(fā)[期刊論文]-湖北工業(yè)大學學報 2011(5) 3.陳誠 基于云計算的智慧城市垂直搜索技術(shù)研究[期刊論文]-軟件產(chǎn)業(yè)與工程 2012(4) 4.王燕平 基于文獻計量的我國搜索引擎研究現(xiàn)狀和熱點分析[期刊論文]-現(xiàn)代情報 2012(7) 5.陳誠 基于云計算的智慧城市垂直搜索技術(shù)研究[期刊論文]-軟件產(chǎn)業(yè)與工程 2012(4)
本文鏈接:
本文關(guān)鍵詞:基于Nutch的垂直搜索引擎的設計和實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:196849
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/196849.html