主題爬蟲的主題相關(guān)度算法研究
發(fā)布時間:2017-08-22 11:15
本文關(guān)鍵詞:主題爬蟲的主題相關(guān)度算法研究
更多相關(guān)文章: 搜索引擎 網(wǎng)絡(luò)爬蟲 主題相關(guān)度 向量空間模型
【摘要】:主題爬蟲核心問題是主題的相關(guān)性判別問題。如何在爬取過程中,快速、準(zhǔn)確地判別爬取頁面的主題相關(guān)度,是決定主題爬蟲搜索策略好壞的關(guān)鍵所在。提出利用兩步向量空間模型計算的方法進(jìn)行主題識別,并將基于兩步向量空間模型的主題爬蟲與傳統(tǒng)基于一步向量空間模型的主題爬蟲進(jìn)行比較,實驗表明基于兩步向量空間的主題爬蟲在主題相關(guān)度判別和執(zhí)行效率方面都有較好的表現(xiàn),同時對"隧道現(xiàn)象"也有一定的改善。
【作者單位】: 上海海事大學(xué)信息工程學(xué)院;
【關(guān)鍵詞】: 搜索引擎 網(wǎng)絡(luò)爬蟲 主題相關(guān)度 向量空間模型
【分類號】:TP391.3
【正文快照】: 0引言伴隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)資源日益豐富。傳統(tǒng)通用搜索引擎的弊端日益突顯,資源的覆蓋率、搜索結(jié)果的準(zhǔn)確性和相關(guān)性均有所下降,用戶的搜索難度日益增大。于是,垂直搜索引擎應(yīng)運而生,在近幾年得到了快速的發(fā)展,并成為搜索引擎領(lǐng)域的發(fā)展的熱點和難點之一。對于搜索引擎而
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王萌,何婷婷,張偉;基于概念向量空間模型的中文自動文摘系統(tǒng)[J];計算機工程與應(yīng)用;2005年01期
2 張玉連;張敏;張波;;一種擴展的向量空間模型-隱含語義索引模型研究[J];燕山大學(xué)學(xué)報;2006年01期
3 李雪峰;劉魯;張f,
本文編號:718812
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/718812.html
最近更新
教材專著