天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于TF-IDF改進算法的聚焦主題網(wǎng)絡(luò)爬蟲

發(fā)布時間:2017-11-29 16:29

  本文關(guān)鍵詞:基于TF-IDF改進算法的聚焦主題網(wǎng)絡(luò)爬蟲


  更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 語義分析 搜索引擎 TF-IDF 主題爬蟲 文檔相似度


【摘要】:針對傳統(tǒng)的TF-IDF算法、K-means算法、自適應(yīng)遺傳算法在網(wǎng)絡(luò)檢索結(jié)果中含有大量不相關(guān)數(shù)據(jù)、語義檢索準確性不高的問題,研究了TF-IDF算法的改進及其在語義檢索中的應(yīng)用。將正則表達式和語義分析技術(shù)相結(jié)合,從而實現(xiàn)對TF-IDF算法的改進。利用語義庫對搜索主題進行描述,根據(jù)正則原子語義的重要性和在網(wǎng)頁標(biāo)簽中的不同位置進行加權(quán)計算,得到正則原子在文檔中的相似度。通過空間向量模型對文檔相似度和主題模型進行余弦運算,從而獲取最終的搜索結(jié)果。最后,將改進的TF-IDF算法、傳統(tǒng)的TF-IDF算法、K-means算法和自適應(yīng)遺傳算法運用于聚焦主題網(wǎng)絡(luò)爬蟲中,對其檢索結(jié)果進行了對比分析。計算結(jié)果表明,在聚焦主題網(wǎng)絡(luò)爬蟲語義分析的垂直搜索中,改進TF-IDF算法的相似度準確率比傳統(tǒng)的TF-IDF算法檢索準確率提高了17.1個百分點,遺漏率降低了7.76個百分點;比K-means算法檢索準確率提高6個百分點;比自適應(yīng)遺傳算法檢索準確率提高了8.1個百分點?傊,改進的TF-IDF算法可以有效地提高文檔相似度檢測的準確率,很好地改善聚焦主題網(wǎng)絡(luò)爬蟲在語義分析中的缺陷。
【作者單位】: 北方工業(yè)大學(xué)計算機學(xué)院;
【基金】:國家自然科學(xué)基金資助項目(61371142) 北京市創(chuàng)新團隊建設(shè)提升計劃項目(ID HT20130502)
【分類號】:TP391.1
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)資源每天都在成千上億兆的增長。其中涵蓋了當(dāng)今社會各個方面,例如教育、新聞、財經(jīng)等[1]。網(wǎng)絡(luò)共享資源已經(jīng)成為了當(dāng)今世界上最大規(guī)模的網(wǎng)絡(luò)公共共享資源。但是人的能力是有限的,面對如此龐大的資源數(shù)量,要從中找出所需要的數(shù)據(jù)是一件

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前9條

1 陳悅;陳運;楊義先;胡迪;;基于遺傳算法的聚焦爬蟲搜索策略設(shè)計與研究[J];成都信息工程學(xué)院學(xué)報;2011年05期

2 代寬;趙輝;韓冬;宋天勇;;基于向量空間模型的中文網(wǎng)頁主題特征項抽取[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2014年01期

3 賀飛艷;何炎祥;劉楠;劉健博;彭敏;;面向微博短文本的細粒度情感特征抽取方法[J];北京大學(xué)學(xué)報(自然科學(xué)版);2014年01期

4 孫志軍;鄭p,

本文編號:1237401


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1237401.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b0eb7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com