基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn)
1 4
Co mp tr Er u e a No.2 01 2 0
分類頁(yè)面開始進(jìn)行抓取工作時(shí),允許將這個(gè)頁(yè)面加入抓取隊(duì)不列;網(wǎng)站中的所有圖書信息頁(yè)面前綴都有 W W. ia p bcr, W c n— u . n h o
N OT _
A L Z D( L cn20前為 u OK N z D)其 NA Y E在 u ee .之 NT E I E,
他的Fe都可以分詞后再存儲(chǔ), d x id l I e屬性設(shè)置為 A A Y E n N L ZD F l ul e ii U L b o . t r, il Soe E, i d r n w F d R, o k eU l F d t . S e= e ( g 0 e . rY F l. d x N T_ N L Z D; i dI e . O _ A Y E ) e n A Fed b o N re n w il( OOK NA,b o il o k an= e FedB _ ME o k .
所以抓取時(shí)要使 U L滿足這個(gè)條件;oosx是針對(duì) rb t策 ( OK NIE。部分核心代碼如下: R rb ttt . o os T E Z D)
略發(fā)出的 U L所包含的字符串,n是 H rr在做域名解析 R ds e tx ii時(shí)發(fā)出的一個(gè)請(qǐng)求 U L的前綴, R對(duì)這些 U L應(yīng)該進(jìn)行處 R都理;在抓取之后的鏡像目錄中,該有 W Wci -u . m這應(yīng) W . n pb o ha c個(gè)目,錄里面保存的就是抓取下來(lái)的網(wǎng)頁(yè)和各種文件。核心代 碼如下: . u1 q a l oe a e” w . i -u . r” f r u l g rC s ( w c n p bc n ) ( . e sn w ha o ) r t n; e ur
g t o k a e, i dSoeY S F l Id x N L Z D; eB o N m 0 Fe tr.E, id n e . A Y E ) l e . A
將 F l對(duì)象保存到 D cm n對(duì)象中之后, id e ou et即可調(diào)用 L c e ue n 包中的Idx i r n e Wre類的 ad c met t dDou n方法,將這個(gè) Dou n對(duì) cmet
象加入到索引中。I eWre類還提供了 ot i l e
方法和 n x ir d t p mz n x i ed c s方法, le o分別用于優(yōu)化索引和關(guān)閉索引。 45搜索與呈現(xiàn)模塊 .
i u1 d x fⅥ『 . i—u . r” -1l f ri e O (, Wc n p b o ) I ( . n”\ h a v cn l u1 d x f d s ) -I r n e O ( n:l 1I . i””_ u1n e Of rb t. t l- ) rid x (o ost”一 1 .” x)
本模塊中使用 T m a和 JP建了 we平臺(tái)。用戶在前 o ct S搭 b臺(tái) We頁(yè)面上可以輸入關(guān)鍵字和選擇檢索類別, b然后將這些信
g t o t l r . trn e0s h d l c U ) eC n oe 0g Fo t r . e u (a n; rl e i c e
42網(wǎng)頁(yè)解析模塊 .
息交給后臺(tái)的檢索類,類在索引和數(shù)據(jù)庫(kù)中進(jìn)行搜索,這些最
在抓取得到網(wǎng)頁(yè)之后,以結(jié)合使用 J K中的正則表達(dá)式后將搜索結(jié)果顯示給用戶。顯示的內(nèi)容為查詢到圖書的幾項(xiàng)可 D
如作和 H ML asr T Pre類提供的 AP來(lái)完成對(duì)網(wǎng)頁(yè)的解析。本模塊通基本信息,書名、者和出版社等。本模塊可對(duì)搜索的結(jié)果 I 過遞歸遍歷網(wǎng)頁(yè)文件目錄來(lái)完成對(duì)其下所有網(wǎng)頁(yè)文件的解分頁(yè)顯示,為搜索結(jié)果提供超鏈接鏈指向原始圖書信息地并如圖 4示。所 析。由于從 ci—u網(wǎng)上抓取下來(lái)的圖書信息網(wǎng)頁(yè)都是以數(shù)址, h apb n字命名的,沒有. 的后綴,以應(yīng)設(shè)計(jì)判斷條件,所把其他格式的文件和子目錄過濾掉,只對(duì)符合要求的網(wǎng)頁(yè)文件執(zhí)行操作。然后對(duì)合法的網(wǎng)頁(yè)文件調(diào)用e t c方法,正則表達(dá)式匹配字符 x at r用
c *
r
匡三圈垂
◇書名 0作者。叢書名 0出版社 (摘要 (壘文 3 ),
串的方式來(lái)提取網(wǎng)頁(yè)中的有用信息,得到的信息按指定的并把 格式保存到文本文件中。 43數(shù)據(jù)庫(kù)存儲(chǔ)模塊 .
書名{
Pie f叛) rmr影印
作者:f )S a l y B L p ̄ n美 t ̄ e . ip a出版社;中國(guó)電力出版社叢書名:并發(fā)大師謄捌髓揍地址:h t:/ c i aD b c t 1 tD/w hn—u 0 47
數(shù)據(jù)庫(kù)中定義了一個(gè)存儲(chǔ)各種圖書信息的表,圖書名包括 稱,作者,叢書名,出版日期, B索引時(shí)間等字段。采用直接 I N, S的J B D C方式向數(shù)據(jù)庫(kù)寫入數(shù)據(jù),每插入一條圖書信息都可得 書名:
c+Pi《 D中文聰+ rmr 3 ) R 作者: t n e L p ̄ n Jo e jo S a l y B. i p a, s e La l
到一個(gè)自動(dòng)分配的I。這個(gè) I D D值用于建立數(shù)據(jù)庫(kù)中的記錄與 索引中的 D c met ou n的映射關(guān)系。 44索引建立模塊 .
出舨社中雹電力出版社叢書名:深入c謄孤 H .
壁蕉i皴熟鰱 棠 l豫
:§ !§ !:生:Q墼§
2 0—《 50 q 2 O 9 0一2 8: 7: 9
索引中的內(nèi)容為用戶可以檢索的分類信息。我們?yōu)橐韵?幾種圖書基本信息建立了索引:圖書名稱、 B出版社、 I N、 S叢書 5結(jié)束語(yǔ)
圖4搜索結(jié)果顯示圖
名、作者等 (用戶可以按照這幾種分類信息來(lái)檢索圖書)以及,垂直搜索引擎技術(shù)已越來(lái)越受到重視,用戶通過它可以獲之前將該圖書信息保存到數(shù)據(jù)庫(kù)時(shí)得到的 I。用戶通過關(guān)鍵得更準(zhǔn)確、 D更有效的信息檢索服務(wù)。本文對(duì)全文檢索工具包字檢索圖書信息時(shí),系統(tǒng)會(huì)先在索引中進(jìn)行快速檢索,到和 L cn和網(wǎng)絡(luò)爬蟲工具 Heii進(jìn)行了分析,得 u ee rr tx并構(gòu)建了圖書垂關(guān)鍵字相關(guān)的圖書,并進(jìn)一步得到這些圖書的I再在數(shù)據(jù)庫(kù)直搜索引擎系統(tǒng)。應(yīng)用實(shí)踐表明, D;系統(tǒng)達(dá)到了預(yù)期效果。 中查找這些 I D對(duì)應(yīng)的圖書記錄,將完整的圖書信息返回給用戶完成一次檢索。 參考文獻(xiàn):
具體的設(shè)計(jì)邏輯是:為每個(gè)圖書信息對(duì)象 B o定義其在 ok L cn索引中的 D cm n對(duì)象。每個(gè) D cm n對(duì)象中保存 uee ou et ou et
【】 1邱哲,符滔滔開發(fā)自己的搜索引擎【】民郵電出版社,0 7 M.人 2 0.
fl坤,國(guó)華基于L cn/ rr 2白耿 ue eHetx的垂直搜索引擎的研究與應(yīng)用 Ji 【. J計(jì)算機(jī)應(yīng)用與軟件, 0 .61 2 2 2 52 7] 2 92 () 1~ 1,4 0:
了 9 Fe對(duì)象,中有 8 Fe個(gè) il d其個(gè) id與數(shù)據(jù)庫(kù)中的字段有直接的【j f th rOt s o ei.L c n cinM]SI: n ig l 3 i Hac e, i Go p d t u e eI A t[ . .] Ek s c n o I .Ma nn 對(duì)應(yīng)關(guān)系,即數(shù)據(jù)庫(kù)中的 I udt Tm, R,ok a e D,pa d ieU L boN m, e P bi t n , 0 5 u l a i s Co 2 0 c o at
o,e e,rs, t。余下一個(gè) Fe“l(fā)是前面幾種信息 tl車東.ue e基于Jv的全文檢索引擎簡(jiǎn)介[B OL. 0 9 0— 0 uh rsr spesi r i no il a” d l 4 L cn: aa E/] 0—32) ( 2的綜合,,可以作為搜索時(shí)的默認(rèn) Fe。 il d否需要分詞,這些字段都是要保存在索引文檔中的,以Fed所 il 不需要分詞,以將它們對(duì)應(yīng)的 Fe所 il Id x性設(shè)置為 d的 ne屬 [0 9 0— O.t:/ 2 0 - 7 2] t/ e o gc m/e h lc n .t hp c d n .o tc/u e ehml h計(jì),0 8 2 (8:6 2 4 6 .81 2 0 .91 ) 6~ 6 54 2 4 p/ b:/ 。 v。/ 4 hm m/ iw 7 9
5】陳志. J-】汁構(gòu)建 F l對(duì)象的時(shí)候需要確定該 Fe是否需要存儲(chǔ), id e id l是【羅立宏,基于語(yǔ)義分析的垂直搜索網(wǎng)絡(luò)蜘蛛【_算機(jī)工程與設(shè) 6百垂 E/]2 0— 7 0[0 9 0— 0. 的 Soe t屬性都要設(shè)置為 YE。而 I索引時(shí)間, R r S D, U L和作者名【】度百科.直搜索引擎【B OL (0 9 0一i )2 0— 7 2 1
本文關(guān)鍵詞:基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):119236
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/119236.html