天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2016-09-21 08:23

  本文關(guān)鍵詞:基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn)

1 4

Co mp tr Er u e a No.2 01 2 0

分類頁面開始進(jìn)行抓取工作時(shí),允許將這個(gè)頁面加入抓取隊(duì)不列;網(wǎng)站中的所有圖書信息頁面前綴都有 W W. ia p bcr, W c n— u . n h o

N OT _

A L Z D( L cn20前為 u OK N z D)其 NA Y E在 u ee .之 NT E I E,

他的Fe都可以分詞后再存儲(chǔ), d x id l I e屬性設(shè)置為 A A Y E n N L ZD F l ul e ii U L b o . t r, il Soe E, i d r n w F d R, o k eU l F d t . S e= e ( g 0 e . rY F l. d x N T_ N L Z D; i dI e . O _ A Y E ) e n A Fed b o N re n w il( OOK NA,b o il o k an= e FedB _ ME o k .

所以抓取時(shí)要使 U L滿足這個(gè)條件;oosx是針對 rb t策 ( OK NIE。部分核心代碼如下: R rb ttt . o os T E Z D)

略發(fā)出的 U L所包含的字符串,n是 H rr在做域名解析 R ds e tx ii時(shí)發(fā)出的一個(gè)請求 U L的前綴, R對這些 U L應(yīng)該進(jìn)行處 R都理;在抓取之后的鏡像目錄中,該有 W Wci -u . m這應(yīng) W . n pb o ha c個(gè)目,錄里面保存的就是抓取下來的網(wǎng)頁和各種文件。核心代 碼如下: . u1 q a l oe a e” w . i -u . r” f r u l g rC s ( w c n p bc n ) ( . e sn w ha o ) r t n; e ur

g t o k a e, i dSoeY S F l Id x N L Z D; eB o N m 0 Fe tr.E, id n e . A Y E ) l e . A

將 F l對象保存到 D cm n對象中之后, id e ou et即可調(diào)用 L c e ue n 包中的Idx i r n e Wre類的 ad c met t dDou n方法,將這個(gè) Dou n對 cmet

象加入到索引中。I eWre類還提供了 ot i l e

方法和 n x ir d t p mz n x i ed c s方法, le o分別用于優(yōu)化索引和關(guān)閉索引。 45搜索與呈現(xiàn)模塊 .

i u1 d x fⅥ『 . i—u . r” -1l f ri e O (, Wc n p b o ) I ( . n”\ h a v cn l u1 d x f d s ) -I r n e O ( n:l 1I . i””_ u1n e Of rb t. t l- ) rid x (o ost”一 1 .” x)

本模塊中使用 T m a和 JP建了 we平臺(tái)。用戶在前 o ct S搭 b臺(tái) We頁面上可以輸入關(guān)鍵字和選擇檢索類別, b然后將這些信

g t o t l r . trn e0s h d l c U ) eC n oe 0g Fo t r . e u (a n; rl e i c e

42網(wǎng)頁解析模塊 .

息交給后臺(tái)的檢索類,類在索引和數(shù)據(jù)庫中進(jìn)行搜索,這些最

在抓取得到網(wǎng)頁之后,以結(jié)合使用 J K中的正則表達(dá)式后將搜索結(jié)果顯示給用戶。顯示的內(nèi)容為查詢到圖書的幾項(xiàng)可 D

如作和 H ML asr T Pre類提供的 AP來完成對網(wǎng)頁的解析。本模塊通基本信息,書名、者和出版社等。本模塊可對搜索的結(jié)果 I 過遞歸遍歷網(wǎng)頁文件目錄來完成對其下所有網(wǎng)頁文件的解分頁顯示,為搜索結(jié)果提供超鏈接鏈指向原始圖書信息地并如圖 4示。所 析。由于從 ci—u網(wǎng)上抓取下來的圖書信息網(wǎng)頁都是以數(shù)址, h apb n字命名的,沒有. 的后綴,以應(yīng)設(shè)計(jì)判斷條件,所把其他格式的文件和子目錄過濾掉,只對符合要求的網(wǎng)頁文件執(zhí)行操作。然后對合法的網(wǎng)頁文件調(diào)用e t c方法,正則表達(dá)式匹配字符 x at r用

c *

r

匡三圈垂

◇書名 0作者。叢書名 0出版社 (摘要 (壘文 3 ),

串的方式來提取網(wǎng)頁中的有用信息,得到的信息按指定的并把 格式保存到文本文件中。 43數(shù)據(jù)庫存儲(chǔ)模塊 .

書名{

Pie f叛) rmr影印

作者:f )S a l y B L p ̄ n美 t ̄ e . ip a出版社;中國電力出版社叢書名:并發(fā)大師謄捌髓揍地址:h t:/ c i aD b c t 1 tD/w hn—u 0 47

數(shù)據(jù)庫中定義了一個(gè)存儲(chǔ)各種圖書信息的表,圖書名包括 稱,作者,叢書名,出版日期, B索引時(shí)間等字段。采用直接 I N, S的J B D C方式向數(shù)據(jù)庫寫入數(shù)據(jù),每插入一條圖書信息都可得 書名:

c+Pi《 D中文聰+ rmr 3 ) R 作者: t n e L p ̄ n Jo e jo S a l y B. i p a, s e La l

到一個(gè)自動(dòng)分配的I。這個(gè) I D D值用于建立數(shù)據(jù)庫中的記錄與 索引中的 D c met ou n的映射關(guān)系。 44索引建立模塊 .

出舨社中雹電力出版社叢書名:深入c謄孤 H .

壁蕉i皴熟鰱 棠 l豫

:§ !§ !:生:Q墼§

2 0—《 50 q 2 O 9 0一2 8: 7: 9

索引中的內(nèi)容為用戶可以檢索的分類信息。我們?yōu)橐韵?幾種圖書基本信息建立了索引:圖書名稱、 B出版社、 I N、 S叢書 5結(jié)束語

圖4搜索結(jié)果顯示圖

名、作者等 (用戶可以按照這幾種分類信息來檢索圖書)以及,垂直搜索引擎技術(shù)已越來越受到重視,用戶通過它可以獲之前將該圖書信息保存到數(shù)據(jù)庫時(shí)得到的 I。用戶通過關(guān)鍵得更準(zhǔn)確、 D更有效的信息檢索服務(wù)。本文對全文檢索工具包字檢索圖書信息時(shí),系統(tǒng)會(huì)先在索引中進(jìn)行快速檢索,到和 L cn和網(wǎng)絡(luò)爬蟲工具 Heii進(jìn)行了分析,得 u ee rr tx并構(gòu)建了圖書垂關(guān)鍵字相關(guān)的圖書,并進(jìn)一步得到這些圖書的I再在數(shù)據(jù)庫直搜索引擎系統(tǒng)。應(yīng)用實(shí)踐表明, D;系統(tǒng)達(dá)到了預(yù)期效果。 中查找這些 I D對應(yīng)的圖書記錄,將完整的圖書信息返回給用戶完成一次檢索。 參考文獻(xiàn):

具體的設(shè)計(jì)邏輯是:為每個(gè)圖書信息對象 B o定義其在 ok L cn索引中的 D cm n對象。每個(gè) D cm n對象中保存 uee ou et ou et

【】 1邱哲,符滔滔開發(fā)自己的搜索引擎【】民郵電出版社,0 7 M.人 2 0.

fl坤,國華基于L cn/ rr 2白耿 ue eHetx的垂直搜索引擎的研究與應(yīng)用 Ji 【. J計(jì)算機(jī)應(yīng)用與軟件, 0 .61 2 2 2 52 7] 2 92 () 1~ 1,4 0:

了 9 Fe對象,中有 8 Fe個(gè) il d其個(gè) id與數(shù)據(jù)庫中的字段有直接的【j f th rOt s o ei.L c n cinM]SI: n ig l 3 i Hac e, i Go p d t u e eI A t[ . .] Ek s c n o I .Ma nn 對應(yīng)關(guān)系,即數(shù)據(jù)庫中的 I udt Tm, R,ok a e D,pa d ieU L boN m, e P bi t n , 0 5 u l a i s Co 2 0 c o at

o,e e,rs, t。余下一個(gè) Fe“l(fā)是前面幾種信息 tl車東.ue e基于Jv的全文檢索引擎簡介[B OL. 0 9 0— 0 uh rsr spesi r i no il a” d l 4 L cn: aa E/] 0—32) ( 2的綜合,,可以作為搜索時(shí)的默認(rèn) Fe。 il d否需要分詞,這些字段都是要保存在索引文檔中的,以Fed所 il 不需要分詞,以將它們對應(yīng)的 Fe所 il Id x性設(shè)置為 d的 ne屬 [0 9 0— O.t:/ 2 0 - 7 2] t/ e o gc m/e h lc n .t hp c d n .o tc/u e ehml h計(jì),0 8 2 (8:6 2 4 6 .81 2 0 .91 ) 6~ 6 54 2 4 p/ b:/ 。 v。/ 4 hm m/ iw 7 9

5】陳志. J-】汁構(gòu)建 F l對象的時(shí)候需要確定該 Fe是否需要存儲(chǔ), id e id l是【羅立宏,基于語義分析的垂直搜索網(wǎng)絡(luò)蜘蛛【_算機(jī)工程與設(shè) 6百垂 E/]2 0— 7 0[0 9 0— 0. 的 Soe t屬性都要設(shè)置為 YE。而 I索引時(shí)間, R r S D, U L和作者名【】度百科.直搜索引擎【B OL (0 9 0一i )2 0— 7 2 1

基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn)


  本文關(guān)鍵詞:基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號(hào):119236

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/119236.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d0de9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com