天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Shark-Search與OTIE自適應算法的主題爬蟲關鍵技術研究與實現(xiàn)

發(fā)布時間:2021-08-02 05:59
  在數(shù)據(jù)量呈爆炸式增長的大數(shù)據(jù)時代,互聯(lián)網(wǎng)數(shù)據(jù)成為21世紀最重要的資源,同時也是人工智能發(fā)展的基石。如何精準、快速地從互聯(lián)網(wǎng)資源中獲取有用的數(shù)據(jù)成為當前研究的熱點。通用搜索引擎盡量為用戶查詢并返回更多的數(shù)據(jù),但是返回的數(shù)據(jù)中非用戶需要數(shù)據(jù)占據(jù)多數(shù)。主題搜索引擎是通過檢索用戶給定的主題信息,來提高搜索引擎的速度與準確率,因此成為搜索引擎研究的主要方向。網(wǎng)絡爬蟲是搜索引擎中重要的組成部分,專為搜索引擎從互聯(lián)網(wǎng)上獲取網(wǎng)絡資源。主題爬蟲領域的三類經(jīng)典算法其中包括:基于鏈接的算法、基于內(nèi)容的算法和鏈接與內(nèi)容相結合的算法。本文首先對基于內(nèi)容的Shark-Search算法中存在的不足進行優(yōu)化,然后對基于鏈接與內(nèi)容相結合的OTIE自適應算法中存在的問題進行解決,最后在兩個改進算法的基礎上實現(xiàn)主題爬蟲系統(tǒng)。主要研究內(nèi)容如下:(1)基于內(nèi)容的主題爬蟲算法Shark-Search的改進。針對Shark-Search算法在計算子鏈接主題相關度時易受到其上下文信息量不足和噪音鏈接的影響,提出改進算法ESS(Enhance Shark-Search)。首先,ESS算法不再通過簡單的關鍵詞與子鏈接上下文內(nèi)容進行相似度... 

【文章來源】:江蘇大學江蘇省

【文章頁數(shù)】:68 頁

【學位級別】:碩士

【部分圖文】:

基于Shark-Search與OTIE自適應算法的主題爬蟲關鍵技術研究與實現(xiàn)


新浪首頁鏈接塊

航空公司,主題,子鏈,推廣效果


基于 Shark-Search 與 OTIE 自適應算法的主題爬蟲關鍵技術研究與實現(xiàn)實現(xiàn)推廣效果,鏈接周邊只有圖片沒有錨文本信息等特點。本文將考慮從 HTML的標簽以及子鏈接周邊 CSS 樣式提取特征,來計算子鏈接的預判權重。

搜索算法,主題,主題詞,子鏈


20圖 3.3“搜索算法”主題截圖鑒于以上兩種情況,本章在計算子鏈接的主題相關度時,將做兩方面的改進:(1)針對子鏈接上下文的局限性,本章將引入迭代式擴展-過濾的思想來擴展主題詞集,然后將穩(wěn)定的主題詞集通過 Word2Vec[39]訓練出主題詞向量模型,

【參考文獻】:
期刊論文
[1]Web異步加載技術分析及信息爬取策略實現(xiàn)[J]. 杜潤澤,梁英,方英蘭.  電腦知識與技術. 2018(24)
[2]基于Web結構的數(shù)據(jù)挖掘中HITS算法的研究[J]. 趙炎.  黑龍江教育(理論與實踐). 2018(05)
[3]詞向量聚類加權Shark-Search的主題爬蟲策略研究[J]. 程元堃,廖聞劍,程光.  計算機與數(shù)字工程. 2018(01)
[4]對反爬蟲網(wǎng)站的應對策略[J]. 劉石磊.  電腦知識與技術. 2017(15)
[5]面向專用信息獲取的用戶定制主題網(wǎng)絡爬蟲技術研究[J]. 薛麗敏,吳琦,李駿.  信息網(wǎng)絡安全. 2017(02)
[6]一種基于鏈接和內(nèi)容分析的自適應主題爬蟲算法[J]. 朱慶生,徐寧,周瑜.  計算機與現(xiàn)代化. 2015(09)
[7]基于索引屬性改進的OPIC算法[J]. 田文波,徐洪珍,盧群樂.  計算機系統(tǒng)應用. 2015(07)
[8]一種改進Best-First算法的主題爬蟲搜索算法[J]. 丁發(fā)梅.  信息通信. 2015(04)
[9]基于改進Fish-Search算法的機彈協(xié)同航線規(guī)劃[J]. 孫濤,謝曉方,孫永芹.  彈箭與制導學報. 2010(03)
[10]PageRank算法中主題漂移的研究[J]. 高琪,張永平.  微計算機信息. 2010(09)

博士論文
[1]基于主題的互聯(lián)網(wǎng)信息抓取研究[D]. 楊肖.浙江大學 2014
[2]主題搜索引擎聚類算法的研究[D]. 李群.北京林業(yè)大學 2011
[3]面向垂直搜索引擎的主題爬行技術研究[D]. 陳竹敏.山東大學 2008

碩士論文
[1]基于HITS與Shark-Search的主題爬蟲關鍵技術研究與實現(xiàn)[D]. 劉禮剛.江蘇大學 2018
[2]基于網(wǎng)頁分塊的主題爬蟲技術研究[D]. 周雪.山東師范大學 2017
[3]基于改進shark-search算法的主題爬蟲的研究與實現(xiàn)[D]. 張文躍.內(nèi)蒙古大學 2015
[4]基于Fish-search算法的垂直搜索引擎研究與設計[D]. 舒奔.安徽理工大學 2014
[5]主題爬蟲算法的研究與實現(xiàn)[D]. 杜娟娟.蘭州交通大學 2013
[6]面向垂直搜索引擎的主題爬蟲方法研究[D]. 王良偉.重慶大學 2013
[7]基于Nutch的學術搜索引擎的研究與實現(xiàn)[D]. 夏樹倩.東北大學 2011
[8]主題爬蟲穿越隧道算法研究與設計[D]. 常旭.山東科技大學 2011
[9]主題爬蟲的實現(xiàn)及其關鍵技術研究[D]. 張航.武漢理工大學 2010
[10]基于垂直搜索引擎的主題爬蟲算法的研究[D]. 陳可欽.中南林業(yè)科技大學 2009



本文編號:3317030

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3317030.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶561c9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com