基于TF-IDF改進算法的聚焦主題網(wǎng)絡(luò)爬蟲

發(fā)布時間：2017-11-29 16:29

本文關(guān)鍵詞：基于TF-IDF改進算法的聚焦主題網(wǎng)絡(luò)爬蟲

【摘要】：針對傳統(tǒng)的TF-IDF算法、K-means算法、自適應(yīng)遺傳算法在網(wǎng)絡(luò)檢索結(jié)果中含有大量不相關(guān)數(shù)據(jù)、語義檢索準確性不高的問題,研究了TF-IDF算法的改進及其在語義檢索中的應(yīng)用。將正則表達式和語義分析技術(shù)相結(jié)合,從而實現(xiàn)對TF-IDF算法的改進。利用語義庫對搜索主題進行描述,根據(jù)正則原子語義的重要性和在網(wǎng)頁標(biāo)簽中的不同位置進行加權(quán)計算,得到正則原子在文檔中的相似度。通過空間向量模型對文檔相似度和主題模型進行余弦運算,從而獲取最終的搜索結(jié)果。最后,將改進的TF-IDF算法、傳統(tǒng)的TF-IDF算法、K-means算法和自適應(yīng)遺傳算法運用于聚焦主題網(wǎng)絡(luò)爬蟲中,對其檢索結(jié)果進行了對比分析。計算結(jié)果表明,在聚焦主題網(wǎng)絡(luò)爬蟲語義分析的垂直搜索中,改進TF-IDF算法的相似度準確率比傳統(tǒng)的TF-IDF算法檢索準確率提高了17.1個百分點,遺漏率降低了7.76個百分點;比K-means算法檢索準確率提高6個百分點;比自適應(yīng)遺傳算法檢索準確率提高了8.1個百分點�？傊�,改進的TF-IDF算法可以有效地提高文檔相似度檢測的準確率,很好地改善聚焦主題網(wǎng)絡(luò)爬蟲在語義分析中的缺陷。
【作者單位】：北方工業(yè)大學(xué)計算機學(xué)院;
【基金】：國家自然科學(xué)基金資助項目(61371142) 北京市創(chuàng)新團隊建設(shè)提升計劃項目(ID HT20130502)
【分類號】：TP391.1
【正文快照】： 0引言隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)資源每天都在成千上億兆的增長。其中涵蓋了當(dāng)今社會各個方面,例如教育、新聞、財經(jīng)等[1]。網(wǎng)絡(luò)共享資源已經(jīng)成為了當(dāng)今世界上最大規(guī)模的網(wǎng)絡(luò)公共共享資源。但是人的能力是有限的,面對如此龐大的資源數(shù)量,要從中找出所需要的數(shù)據(jù)是一件

【參考文獻】

中國期刊全文數(shù)據(jù)庫前9條

1 陳悅;陳運;楊義先;胡迪;;基于遺傳算法的聚焦爬蟲搜索策略設(shè)計與研究[J];成都信息工程學(xué)院學(xué)報;2011年05期

2 代寬;趙輝;韓冬;宋天勇;;基于向量空間模型的中文網(wǎng)頁主題特征項抽取[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2014年01期

3 賀飛艷;何炎祥;劉楠;劉健博;彭敏;;面向微博短文本的細粒度情感特征抽取方法[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期

4 孫志軍;鄭p，

本文編號：1237401

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1237401.html

上一篇：網(wǎng)絡(luò)搜索引擎對提高大學(xué)生信息素養(yǎng)的作用
下一篇：植物葉圖像特征分析和分類檢索

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于TF-IDF改進算法的聚焦主題網(wǎng)絡(luò)爬蟲