基于多Agent系統(tǒng)的定題爬蟲算法
發(fā)布時(shí)間:2018-03-16 10:46
本文選題:定題爬蟲 切入點(diǎn):主題關(guān)鍵字過濾 出處:《計(jì)算機(jī)工程》2008年16期 論文類型:期刊論文
【摘要】:定題爬蟲的研究是定題搜索引擎的關(guān)鍵技術(shù)。該文提出一種基于多Agent系統(tǒng)的爬蟲算法,采用本題語義主題關(guān)鍵詞過濾的方法來抓取與主題相關(guān)的網(wǎng)頁,利用本體庫語義網(wǎng)絡(luò)實(shí)現(xiàn)本體領(lǐng)域中同近義詞的過濾。憑借HTML網(wǎng)頁標(biāo)記對關(guān)鍵字識(shí)別的不同權(quán)重和超鏈接錨文本對主題相關(guān)網(wǎng)頁進(jìn)行預(yù)測,通過黑板的通信機(jī)制實(shí)現(xiàn)多Agent交互。實(shí)驗(yàn)結(jié)果表明算法在抓取網(wǎng)頁的查準(zhǔn)率、查全率方面有一定的改善。
[Abstract]:The research of topic crawler is the key technology of topic search engine. In this paper, a crawler algorithm based on multiple Agent system is proposed. The semantic network of ontology library is used to filter the synonyms in ontology domain. With the help of different weights and hyperlink anchor text recognized by HTML web page tags, the relevant web pages are predicted. The experiment results show that the algorithm can improve the precision and recall of web pages.
【作者單位】: 江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院;
【基金】:江蘇省科技攻關(guān)基金資助重點(diǎn)項(xiàng)目(BE2004093)
【分類號(hào)】:TP18;TP391.3
【相似文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 鄭健珍;定題爬蟲搜索策略研究[D];廈門大學(xué);2007年
,本文編號(hào):1619587
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1619587.html
最近更新
教材專著