基于主題語(yǔ)義URL的信息搜索方法研究
發(fā)布時(shí)間:2017-10-30 02:37
本文關(guān)鍵詞:基于主題語(yǔ)義URL的信息搜索方法研究
更多相關(guān)文章: 主題樹(shù) URL語(yǔ)義 搜索引擎 主題-URL映射
【摘要】:為提高主題網(wǎng)絡(luò)爬蟲的效率及收獲率,提出一種基于主題語(yǔ)義URL的信息搜索方法。該方法將種子URL映射到主題樹(shù)的主題結(jié)點(diǎn)上,以主題路徑上的主題文本擴(kuò)充種子URL的語(yǔ)義,引導(dǎo)爬蟲高效準(zhǔn)確地抓取主題頁(yè)面,并利用鏈接重要度與頁(yè)面重要度因子在抓取過(guò)程中自動(dòng)選育新的URL優(yōu)良種子。重點(diǎn)闡述上述搜索方法的原理及其在系統(tǒng)中的實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該搜索方法能有效改善網(wǎng)絡(luò)爬蟲的搜索效率及收獲率,且種子鏈接的選育性能良好。
【作者單位】: 懷化學(xué)院計(jì)算機(jī)工程系;
【關(guān)鍵詞】: 主題樹(shù) URL語(yǔ)義 搜索引擎 主題-URL映射
【基金】:湖南省教育廳科研項(xiàng)目(10C1064) 懷化學(xué)院科研項(xiàng)目(HHUY2010-18) 懷化學(xué)院重點(diǎn)學(xué)科建設(shè)項(xiàng)目
【分類號(hào)】:TP391.3
【正文快照】: 0引言及時(shí)準(zhǔn)確的情報(bào)信息是一個(gè)行業(yè)制定科學(xué)決策、贏得競(jìng)爭(zhēng)優(yōu)勢(shì)的基礎(chǔ)。信息搜索是快速獲取互聯(lián)網(wǎng)中情報(bào)內(nèi)容的關(guān)鍵技術(shù)。因此,面向行業(yè)的主題搜索技術(shù)[1-5]已成為信息搜索領(lǐng)域的研究熱點(diǎn)。通常互聯(lián)網(wǎng)上的主題頁(yè)面容易成團(tuán)出現(xiàn),頁(yè)面中的鏈接也常與主題相關(guān),它們的分布規(guī)律可
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 余e,
本文編號(hào):1115763
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1115763.html
最近更新
教材專著