基于TF-IDF改進(jìn)算法的聚焦主題網(wǎng)絡(luò)爬蟲
發(fā)布時間:2017-11-29 16:29
本文關(guān)鍵詞:基于TF-IDF改進(jìn)算法的聚焦主題網(wǎng)絡(luò)爬蟲
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 語義分析 搜索引擎 TF-IDF 主題爬蟲 文檔相似度
【摘要】:針對傳統(tǒng)的TF-IDF算法、K-means算法、自適應(yīng)遺傳算法在網(wǎng)絡(luò)檢索結(jié)果中含有大量不相關(guān)數(shù)據(jù)、語義檢索準(zhǔn)確性不高的問題,研究了TF-IDF算法的改進(jìn)及其在語義檢索中的應(yīng)用。將正則表達(dá)式和語義分析技術(shù)相結(jié)合,從而實現(xiàn)對TF-IDF算法的改進(jìn)。利用語義庫對搜索主題進(jìn)行描述,根據(jù)正則原子語義的重要性和在網(wǎng)頁標(biāo)簽中的不同位置進(jìn)行加權(quán)計算,得到正則原子在文檔中的相似度。通過空間向量模型對文檔相似度和主題模型進(jìn)行余弦運算,從而獲取最終的搜索結(jié)果。最后,將改進(jìn)的TF-IDF算法、傳統(tǒng)的TF-IDF算法、K-means算法和自適應(yīng)遺傳算法運用于聚焦主題網(wǎng)絡(luò)爬蟲中,對其檢索結(jié)果進(jìn)行了對比分析。計算結(jié)果表明,在聚焦主題網(wǎng)絡(luò)爬蟲語義分析的垂直搜索中,改進(jìn)TF-IDF算法的相似度準(zhǔn)確率比傳統(tǒng)的TF-IDF算法檢索準(zhǔn)確率提高了17.1個百分點,遺漏率降低了7.76個百分點;比K-means算法檢索準(zhǔn)確率提高6個百分點;比自適應(yīng)遺傳算法檢索準(zhǔn)確率提高了8.1個百分點。總之,改進(jìn)的TF-IDF算法可以有效地提高文檔相似度檢測的準(zhǔn)確率,很好地改善聚焦主題網(wǎng)絡(luò)爬蟲在語義分析中的缺陷。
【作者單位】: 北方工業(yè)大學(xué)計算機(jī)學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(61371142) 北京市創(chuàng)新團(tuán)隊建設(shè)提升計劃項目(ID HT20130502)
【分類號】:TP391.1
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)資源每天都在成千上億兆的增長。其中涵蓋了當(dāng)今社會各個方面,例如教育、新聞、財經(jīng)等[1]。網(wǎng)絡(luò)共享資源已經(jīng)成為了當(dāng)今世界上最大規(guī)模的網(wǎng)絡(luò)公共共享資源。但是人的能力是有限的,面對如此龐大的資源數(shù)量,要從中找出所需要的數(shù)據(jù)是一件
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 陳悅;陳運;楊義先;胡迪;;基于遺傳算法的聚焦爬蟲搜索策略設(shè)計與研究[J];成都信息工程學(xué)院學(xué)報;2011年05期
2 代寬;趙輝;韓冬;宋天勇;;基于向量空間模型的中文網(wǎng)頁主題特征項抽取[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2014年01期
3 賀飛艷;何炎祥;劉楠;劉健博;彭敏;;面向微博短文本的細(xì)粒度情感特征抽取方法[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期
4 孫志軍;鄭p,
本文編號:1237401
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1237401.html
最近更新
教材專著