基于Shark-Search與OTIE自適應(yīng)算法的主題爬蟲關(guān)鍵技術(shù)研究與實現(xiàn)
發(fā)布時間:2021-08-02 05:59
在數(shù)據(jù)量呈爆炸式增長的大數(shù)據(jù)時代,互聯(lián)網(wǎng)數(shù)據(jù)成為21世紀(jì)最重要的資源,同時也是人工智能發(fā)展的基石。如何精準(zhǔn)、快速地從互聯(lián)網(wǎng)資源中獲取有用的數(shù)據(jù)成為當(dāng)前研究的熱點。通用搜索引擎盡量為用戶查詢并返回更多的數(shù)據(jù),但是返回的數(shù)據(jù)中非用戶需要數(shù)據(jù)占據(jù)多數(shù)。主題搜索引擎是通過檢索用戶給定的主題信息,來提高搜索引擎的速度與準(zhǔn)確率,因此成為搜索引擎研究的主要方向。網(wǎng)絡(luò)爬蟲是搜索引擎中重要的組成部分,專為搜索引擎從互聯(lián)網(wǎng)上獲取網(wǎng)絡(luò)資源。主題爬蟲領(lǐng)域的三類經(jīng)典算法其中包括:基于鏈接的算法、基于內(nèi)容的算法和鏈接與內(nèi)容相結(jié)合的算法。本文首先對基于內(nèi)容的Shark-Search算法中存在的不足進(jìn)行優(yōu)化,然后對基于鏈接與內(nèi)容相結(jié)合的OTIE自適應(yīng)算法中存在的問題進(jìn)行解決,最后在兩個改進(jìn)算法的基礎(chǔ)上實現(xiàn)主題爬蟲系統(tǒng)。主要研究內(nèi)容如下:(1)基于內(nèi)容的主題爬蟲算法Shark-Search的改進(jìn)。針對Shark-Search算法在計算子鏈接主題相關(guān)度時易受到其上下文信息量不足和噪音鏈接的影響,提出改進(jìn)算法ESS(Enhance Shark-Search)。首先,ESS算法不再通過簡單的關(guān)鍵詞與子鏈接上下文內(nèi)容進(jìn)行相似度...
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
新浪首頁鏈接塊
基于 Shark-Search 與 OTIE 自適應(yīng)算法的主題爬蟲關(guān)鍵技術(shù)研究與實現(xiàn)實現(xiàn)推廣效果,鏈接周邊只有圖片沒有錨文本信息等特點。本文將考慮從 HTML的標(biāo)簽以及子鏈接周邊 CSS 樣式提取特征,來計算子鏈接的預(yù)判權(quán)重。
20圖 3.3“搜索算法”主題截圖鑒于以上兩種情況,本章在計算子鏈接的主題相關(guān)度時,將做兩方面的改進(jìn):(1)針對子鏈接上下文的局限性,本章將引入迭代式擴展-過濾的思想來擴展主題詞集,然后將穩(wěn)定的主題詞集通過 Word2Vec[39]訓(xùn)練出主題詞向量模型,
【參考文獻(xiàn)】:
期刊論文
[1]Web異步加載技術(shù)分析及信息爬取策略實現(xiàn)[J]. 杜潤澤,梁英,方英蘭. 電腦知識與技術(shù). 2018(24)
[2]基于Web結(jié)構(gòu)的數(shù)據(jù)挖掘中HITS算法的研究[J]. 趙炎. 黑龍江教育(理論與實踐). 2018(05)
[3]詞向量聚類加權(quán)Shark-Search的主題爬蟲策略研究[J]. 程元堃,廖聞劍,程光. 計算機與數(shù)字工程. 2018(01)
[4]對反爬蟲網(wǎng)站的應(yīng)對策略[J]. 劉石磊. 電腦知識與技術(shù). 2017(15)
[5]面向?qū)S眯畔@取的用戶定制主題網(wǎng)絡(luò)爬蟲技術(shù)研究[J]. 薛麗敏,吳琦,李駿. 信息網(wǎng)絡(luò)安全. 2017(02)
[6]一種基于鏈接和內(nèi)容分析的自適應(yīng)主題爬蟲算法[J]. 朱慶生,徐寧,周瑜. 計算機與現(xiàn)代化. 2015(09)
[7]基于索引屬性改進(jìn)的OPIC算法[J]. 田文波,徐洪珍,盧群樂. 計算機系統(tǒng)應(yīng)用. 2015(07)
[8]一種改進(jìn)Best-First算法的主題爬蟲搜索算法[J]. 丁發(fā)梅. 信息通信. 2015(04)
[9]基于改進(jìn)Fish-Search算法的機彈協(xié)同航線規(guī)劃[J]. 孫濤,謝曉方,孫永芹. 彈箭與制導(dǎo)學(xué)報. 2010(03)
[10]PageRank算法中主題漂移的研究[J]. 高琪,張永平. 微計算機信息. 2010(09)
博士論文
[1]基于主題的互聯(lián)網(wǎng)信息抓取研究[D]. 楊肖.浙江大學(xué) 2014
[2]主題搜索引擎聚類算法的研究[D]. 李群.北京林業(yè)大學(xué) 2011
[3]面向垂直搜索引擎的主題爬行技術(shù)研究[D]. 陳竹敏.山東大學(xué) 2008
碩士論文
[1]基于HITS與Shark-Search的主題爬蟲關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 劉禮剛.江蘇大學(xué) 2018
[2]基于網(wǎng)頁分塊的主題爬蟲技術(shù)研究[D]. 周雪.山東師范大學(xué) 2017
[3]基于改進(jìn)shark-search算法的主題爬蟲的研究與實現(xiàn)[D]. 張文躍.內(nèi)蒙古大學(xué) 2015
[4]基于Fish-search算法的垂直搜索引擎研究與設(shè)計[D]. 舒奔.安徽理工大學(xué) 2014
[5]主題爬蟲算法的研究與實現(xiàn)[D]. 杜娟娟.蘭州交通大學(xué) 2013
[6]面向垂直搜索引擎的主題爬蟲方法研究[D]. 王良偉.重慶大學(xué) 2013
[7]基于Nutch的學(xué)術(shù)搜索引擎的研究與實現(xiàn)[D]. 夏樹倩.東北大學(xué) 2011
[8]主題爬蟲穿越隧道算法研究與設(shè)計[D]. 常旭.山東科技大學(xué) 2011
[9]主題爬蟲的實現(xiàn)及其關(guān)鍵技術(shù)研究[D]. 張航.武漢理工大學(xué) 2010
[10]基于垂直搜索引擎的主題爬蟲算法的研究[D]. 陳可欽.中南林業(yè)科技大學(xué) 2009
本文編號:3317030
【文章來源】:江蘇大學(xué)江蘇省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
新浪首頁鏈接塊
基于 Shark-Search 與 OTIE 自適應(yīng)算法的主題爬蟲關(guān)鍵技術(shù)研究與實現(xiàn)實現(xiàn)推廣效果,鏈接周邊只有圖片沒有錨文本信息等特點。本文將考慮從 HTML的標(biāo)簽以及子鏈接周邊 CSS 樣式提取特征,來計算子鏈接的預(yù)判權(quán)重。
20圖 3.3“搜索算法”主題截圖鑒于以上兩種情況,本章在計算子鏈接的主題相關(guān)度時,將做兩方面的改進(jìn):(1)針對子鏈接上下文的局限性,本章將引入迭代式擴展-過濾的思想來擴展主題詞集,然后將穩(wěn)定的主題詞集通過 Word2Vec[39]訓(xùn)練出主題詞向量模型,
【參考文獻(xiàn)】:
期刊論文
[1]Web異步加載技術(shù)分析及信息爬取策略實現(xiàn)[J]. 杜潤澤,梁英,方英蘭. 電腦知識與技術(shù). 2018(24)
[2]基于Web結(jié)構(gòu)的數(shù)據(jù)挖掘中HITS算法的研究[J]. 趙炎. 黑龍江教育(理論與實踐). 2018(05)
[3]詞向量聚類加權(quán)Shark-Search的主題爬蟲策略研究[J]. 程元堃,廖聞劍,程光. 計算機與數(shù)字工程. 2018(01)
[4]對反爬蟲網(wǎng)站的應(yīng)對策略[J]. 劉石磊. 電腦知識與技術(shù). 2017(15)
[5]面向?qū)S眯畔@取的用戶定制主題網(wǎng)絡(luò)爬蟲技術(shù)研究[J]. 薛麗敏,吳琦,李駿. 信息網(wǎng)絡(luò)安全. 2017(02)
[6]一種基于鏈接和內(nèi)容分析的自適應(yīng)主題爬蟲算法[J]. 朱慶生,徐寧,周瑜. 計算機與現(xiàn)代化. 2015(09)
[7]基于索引屬性改進(jìn)的OPIC算法[J]. 田文波,徐洪珍,盧群樂. 計算機系統(tǒng)應(yīng)用. 2015(07)
[8]一種改進(jìn)Best-First算法的主題爬蟲搜索算法[J]. 丁發(fā)梅. 信息通信. 2015(04)
[9]基于改進(jìn)Fish-Search算法的機彈協(xié)同航線規(guī)劃[J]. 孫濤,謝曉方,孫永芹. 彈箭與制導(dǎo)學(xué)報. 2010(03)
[10]PageRank算法中主題漂移的研究[J]. 高琪,張永平. 微計算機信息. 2010(09)
博士論文
[1]基于主題的互聯(lián)網(wǎng)信息抓取研究[D]. 楊肖.浙江大學(xué) 2014
[2]主題搜索引擎聚類算法的研究[D]. 李群.北京林業(yè)大學(xué) 2011
[3]面向垂直搜索引擎的主題爬行技術(shù)研究[D]. 陳竹敏.山東大學(xué) 2008
碩士論文
[1]基于HITS與Shark-Search的主題爬蟲關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 劉禮剛.江蘇大學(xué) 2018
[2]基于網(wǎng)頁分塊的主題爬蟲技術(shù)研究[D]. 周雪.山東師范大學(xué) 2017
[3]基于改進(jìn)shark-search算法的主題爬蟲的研究與實現(xiàn)[D]. 張文躍.內(nèi)蒙古大學(xué) 2015
[4]基于Fish-search算法的垂直搜索引擎研究與設(shè)計[D]. 舒奔.安徽理工大學(xué) 2014
[5]主題爬蟲算法的研究與實現(xiàn)[D]. 杜娟娟.蘭州交通大學(xué) 2013
[6]面向垂直搜索引擎的主題爬蟲方法研究[D]. 王良偉.重慶大學(xué) 2013
[7]基于Nutch的學(xué)術(shù)搜索引擎的研究與實現(xiàn)[D]. 夏樹倩.東北大學(xué) 2011
[8]主題爬蟲穿越隧道算法研究與設(shè)計[D]. 常旭.山東科技大學(xué) 2011
[9]主題爬蟲的實現(xiàn)及其關(guān)鍵技術(shù)研究[D]. 張航.武漢理工大學(xué) 2010
[10]基于垂直搜索引擎的主題爬蟲算法的研究[D]. 陳可欽.中南林業(yè)科技大學(xué) 2009
本文編號:3317030
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3317030.html
最近更新
教材專著