搜索引擎中信息動(dòng)態(tài)采集策略的研究
本文關(guān)鍵詞:搜索引擎中信息動(dòng)態(tài)采集策略的研究,由筆耕文化傳播整理發(fā)布。
第10期電子
學(xué)
報(bào)
Ⅷ.35
N010
2007年10月
ACTAⅡE(邢ONICA
SINICA
Oct
2Da7
搜索引擎中信息動(dòng)態(tài)采集策略的研究
高凱
(河北科技大學(xué)信息科學(xué)與工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系.河北石家序030054)
摘要:
為了能及時(shí)采集到有關(guān)嘲頁(yè)信息,搜索引葷應(yīng)根據(jù)相應(yīng)網(wǎng)站及其更新速度,動(dòng)態(tài)調(diào)整其信息采集的頻
度.本文就模型化網(wǎng)頁(yè)更新過(guò)程以及根據(jù)相關(guān)性動(dòng)態(tài)調(diào)梧搜索引擎的信息采集頻度進(jìn)行了探討.一方面使用泊松過(guò)程來(lái)描述嘲頁(yè)更新并分析了搜索引擎如何有效完成信息采集;另一方面采用基于網(wǎng)頁(yè)從屬關(guān)系和內(nèi)容分析的相關(guān)性來(lái)調(diào)節(jié)該過(guò)程,使得在進(jìn)行信息采集與數(shù)據(jù)更新時(shí)的針對(duì)性更強(qiáng),實(shí)驗(yàn)表明了該方法的有效性.
關(guān)鍵詞:
搜索引擎;數(shù)據(jù)下載器;網(wǎng)頁(yè)更新;泊松過(guò)程;相關(guān)性
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:
A
文章編號(hào):0372-2112(2007)10-1984-05
DynamicRefreshStrategyforCrawlerinSearchEngine
CAoKal
(口;m1日,}ofG州m
b-r&婦andT*x如Mogy,&hodof卻獅刪啪蹦唧eand吁g砷料’昭
Hek4
Unkx.rs蚵礦&諸n鐘and如如Ⅱ’蚴,軸咖吐刪皤.Hebei0500_54,CtⅢ'm)
Absl喇:
Asfor
a
search烈粵如e。pingl妒withtheev01vlng
Web
b
nec.essafy.We
concefn
aixmtⅡl。deIi培Of2
at}effec—
riveWeb
pagecollectingpolicyand
adaIMiverefreshstrategybased
oll
therelevance,whichisus。da畦iust
the
prⅫ.ss
On
one
hand.wethinkthe
Ic蛐behavior
propose
aIl
to
followsthepropertiesofthePoissonplxr..essandanalyzethestrategy
oll
howto
crawl
theWebeffectively
Further,therelevanceisollthebasisofthe
affiliationdeiKdngandthe
contents
analysis.Itisusedto.djOStthe
processThismakesthe
press
moretarge.tcdThe
expermmtalresultsvalidatetimfeasibilityof吐lcapproach.
Key∞rds:,search∞gl”;crawler;refresh;Poisstm
process;relevance
l引言
信息時(shí)遇到的最大問(wèn)題”時(shí)選擇“信息更新慢”選項(xiàng)的占27.5%,排名第2位.因此本文擬針對(duì)信息采集中的數(shù)隨著汁算機(jī)網(wǎng)絡(luò)的迅速普及和應(yīng)用,In.met已成據(jù)更新問(wèn)題進(jìn)行研究.本文認(rèn)為追求絕對(duì)的快不如有的為人類的信息寶庫(kù),如何有效利用這個(gè)信息寶庫(kù)芷日益放矢地進(jìn)行更新,這樣既能有效節(jié)省網(wǎng)絡(luò)資源叉可保持受到人們的重視在此應(yīng)用背景下搜索引擎應(yīng)運(yùn)而生.對(duì)相對(duì)重要及相關(guān)內(nèi)容的及時(shí)下載與更新.
據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心2003年7月至2006年7月發(fā)目前9。!|貞數(shù)量增長(zhǎng)十分迅速而且內(nèi)容更新頻繁.雖布的七次統(tǒng)計(jì)報(bào)告顯示口J,在用戶經(jīng)常使用的網(wǎng)絡(luò)功能然人們并不奢望一小時(shí)前發(fā)生的新聞事件能夠馬上出中選擇搜索引擎的比例分別是70%、61.6%、64.4%、現(xiàn)在報(bào)紙上,但卻希望通過(guò)搜索引擎在Intemet上找到65%、64.5%、65.7%、66.3%;在用戶得知新網(wǎng)站的主要相關(guān)新聞.另一方面,由于網(wǎng)絡(luò)資源的動(dòng)態(tài)變化,搜索引途徑中選擇搜索引擎的比例分別是85%、83.4%、擎鏈接到的頁(yè)面有時(shí)會(huì)變得不可訪『廿J.據(jù)統(tǒng)計(jì)日前搜索86.9%、86.6%、84.5%(注:2006年后的調(diào)查報(bào)告中無(wú)引擎鏈接的失效頁(yè)面數(shù)量大約占全部鏈接頁(yè)面數(shù)量的此項(xiàng)統(tǒng)計(jì)數(shù)據(jù)),可見(jiàn)搜索引擎正在日益發(fā)揮著重要的2%~9%…,可見(jiàn)如不及時(shí)有效地進(jìn)行信息更新勢(shì)必會(huì)作用.但同時(shí)用戶對(duì)搜索引擎性能感到非常滿意的卻只影響到搜索引擎的整體性能.但由于不同網(wǎng)站問(wèn)的更新有23.4%、27.4%、26.9%、28.4%(注:2005年7月后的頻度差異很大口J.月更新大多存在著隨機(jī)性,隨時(shí)跟蹤調(diào)查報(bào)告中無(wú)此項(xiàng)統(tǒng)計(jì)數(shù)據(jù)).英國(guó)MORI調(diào)杏公司的并完全做到對(duì)網(wǎng)頁(yè)的實(shí)時(shí)更新幾乎也是不現(xiàn)實(shí)的.因此調(diào)查統(tǒng)計(jì)結(jié)果也表明只有18%的用戶對(duì)搜索引擎的返一些搜索引擎系統(tǒng)往往根據(jù)實(shí)際情況采取不同的定時(shí)回結(jié)果表示滿意,,而高達(dá)68%的用戶表示很失望,可見(jiàn)或不定時(shí)更新策略.
搜索引擎仍有許多需改進(jìn)之處,據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中在相關(guān)研究中,文獻(xiàn)[6,10,12~14]介紹了多種不心2005年7月發(fā)布的統(tǒng)計(jì)報(bào)告顯示,用戶在回答“檢索同的更新方法,而網(wǎng)頁(yè)相關(guān)性問(wèn)題也在文獻(xiàn)【3—5]中被
收稿日期:2005塒4)4;修回日期:2007—07一10
本文關(guān)鍵詞:搜索引擎中信息動(dòng)態(tài)采集策略的研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):142453
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/142453.html