基于仿生學(xué)的主題爬蟲搜索策略及關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2021-10-26 23:32
主題爬蟲(Focused Crawler)是主題搜索引擎的關(guān)鍵部件,目的是檢索最大數(shù)量的與特定主題相關(guān)的網(wǎng)頁。它會(huì)根據(jù)相關(guān)算法或者特定策略進(jìn)行網(wǎng)頁篩選,直到達(dá)到一定的下載數(shù)量、迭代次數(shù)或者主題相似度的精度閾值為止。比之通用爬蟲,主題爬蟲需要解決以下問題:主題定義、網(wǎng)頁數(shù)據(jù)的分析、未知URL的搜索策略。對(duì)于主題定義、網(wǎng)頁數(shù)據(jù)的分析已經(jīng)比較準(zhǔn)確和全面。而未知URL的搜索策略一直是主題爬蟲研究領(lǐng)域的熱點(diǎn)及難點(diǎn),該領(lǐng)域的研究從最初的基于內(nèi)容和鏈接到利用敘詞表和本體,再到目前基于機(jī)器學(xué)習(xí)算法,主題爬蟲的搜索精度和覆蓋率都有了一定的提升。然而,當(dāng)前主題爬蟲的搜索策略研究依然存在著主題計(jì)算準(zhǔn)確率較低,抓取網(wǎng)頁的覆蓋率不高,容易出現(xiàn)主題偏移,種子頁面選取不合理等問題。為了解決以上問題,本文對(duì)主題爬蟲搜索策略及相關(guān)技術(shù)進(jìn)行了如下研究:1.本文設(shè)計(jì)了一個(gè)基于變異思想改進(jìn)粒子群算法的主題爬蟲模型。首先,對(duì)于每個(gè)主題基于點(diǎn)擊率獲取3種容易產(chǎn)生大規(guī)模聚集的網(wǎng)頁群中的典型頁面。然后,計(jì)算每個(gè)主題3種種子頁面的權(quán)值,將權(quán)值作為粒子群爬蟲的初始速度和方向值,使用本文提出的基于變異思想改進(jìn)的粒子群算法抓取頁面。其中,本...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.2.1 搜索策略
1.2.2 種子頁面選擇
1.2.3 主題爬蟲領(lǐng)域的主要問題
1.3 論文研究?jī)?nèi)容及意義
1.4 論文組織結(jié)構(gòu)
第2章 相關(guān)理論與技術(shù)
2.1 仿生學(xué)算法
2.1.1 粒子群算法
2.1.2 遺傳算法
2.2 相似度計(jì)算
2.2.1 歐幾里德距離
2.2.2 余弦相似度
2.3 主題爬蟲搜索策略
2.3.1 VSM爬蟲
2.3.2 SSRM爬蟲
2.4 種子頁面選取策略BFC
2.5 非重疊社區(qū)發(fā)現(xiàn)算法
2.6 本章小結(jié)
第3章 基于變異思想改進(jìn)粒子群算法的主題爬蟲模型
3.1 問題提出與解決辦法
3.2 模型框架
3.3 種子頁面的選取
3.4 頁面初始權(quán)值計(jì)算
3.4.1 網(wǎng)頁文本預(yù)處理
3.4.2 關(guān)鍵詞選擇
3.4.3 計(jì)算網(wǎng)頁權(quán)重
3.4.4 基于VR-PSO算法抓取頁面
3.5 實(shí)驗(yàn)與分析
3.5.1 實(shí)驗(yàn)設(shè)計(jì)
3.5.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
3.5.3 實(shí)驗(yàn)結(jié)果與分析
3.6 本章小結(jié)
第4章 基于改進(jìn)Louvain算法的種子頁面選取框架
4.1 問題提出與解決辦法
4.2 模型框架
4.3 加權(quán)的Louvain算法
4.4 選取核心子團(tuán)
4.5 頁面選擇
4.6 實(shí)驗(yàn)與分析
4.6.1 實(shí)驗(yàn)環(huán)境
4.6.2 實(shí)驗(yàn)設(shè)計(jì)
4.6.3 實(shí)驗(yàn)結(jié)果與分析
4.7 本章小結(jié)
第5章 結(jié)論
5.1 研究工作總結(jié)
5.2 未來工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]融合鏈接結(jié)構(gòu)的主題爬蟲算法[J]. 劉韶濤,李洪勝. 華僑大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[2]一種基于本體語義的災(zāi)害主題爬蟲策略[J]. 馬雷雷,李宏偉,連世偉,梁汝鵬,陳虎. 計(jì)算機(jī)工程. 2016(11)
[3]Mining and Harvesting High Quality Topical Resources from the Web[J]. ZHAO Wei,GUAN Ziyu,CAO Zhengwen,LIU Zheng. Chinese Journal of Electronics. 2016(01)
[4]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強(qiáng). 計(jì)算機(jī)工程與科學(xué). 2015(02)
[5]一種新的基于概念樹的主題網(wǎng)絡(luò)爬蟲方法[J]. 謝志妮. 計(jì)算機(jī)與現(xiàn)代化. 2010(04)
[6]基于敘詞表的主題爬蟲技術(shù)研究[J]. 夏崇鐠,康麗. 現(xiàn)代圖書情報(bào)技術(shù). 2007(05)
碩士論文
[1]基于主題爬蟲的食品安全網(wǎng)絡(luò)輿情分析方法研究與監(jiān)測(cè)系統(tǒng)開發(fā)[D]. 吳強(qiáng)強(qiáng).北京化工大學(xué) 2016
本文編號(hào):3460411
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景
1.2 研究現(xiàn)狀
1.2.1 搜索策略
1.2.2 種子頁面選擇
1.2.3 主題爬蟲領(lǐng)域的主要問題
1.3 論文研究?jī)?nèi)容及意義
1.4 論文組織結(jié)構(gòu)
第2章 相關(guān)理論與技術(shù)
2.1 仿生學(xué)算法
2.1.1 粒子群算法
2.1.2 遺傳算法
2.2 相似度計(jì)算
2.2.1 歐幾里德距離
2.2.2 余弦相似度
2.3 主題爬蟲搜索策略
2.3.1 VSM爬蟲
2.3.2 SSRM爬蟲
2.4 種子頁面選取策略BFC
2.5 非重疊社區(qū)發(fā)現(xiàn)算法
2.6 本章小結(jié)
第3章 基于變異思想改進(jìn)粒子群算法的主題爬蟲模型
3.1 問題提出與解決辦法
3.2 模型框架
3.3 種子頁面的選取
3.4 頁面初始權(quán)值計(jì)算
3.4.1 網(wǎng)頁文本預(yù)處理
3.4.2 關(guān)鍵詞選擇
3.4.3 計(jì)算網(wǎng)頁權(quán)重
3.4.4 基于VR-PSO算法抓取頁面
3.5 實(shí)驗(yàn)與分析
3.5.1 實(shí)驗(yàn)設(shè)計(jì)
3.5.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
3.5.3 實(shí)驗(yàn)結(jié)果與分析
3.6 本章小結(jié)
第4章 基于改進(jìn)Louvain算法的種子頁面選取框架
4.1 問題提出與解決辦法
4.2 模型框架
4.3 加權(quán)的Louvain算法
4.4 選取核心子團(tuán)
4.5 頁面選擇
4.6 實(shí)驗(yàn)與分析
4.6.1 實(shí)驗(yàn)環(huán)境
4.6.2 實(shí)驗(yàn)設(shè)計(jì)
4.6.3 實(shí)驗(yàn)結(jié)果與分析
4.7 本章小結(jié)
第5章 結(jié)論
5.1 研究工作總結(jié)
5.2 未來工作展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]融合鏈接結(jié)構(gòu)的主題爬蟲算法[J]. 劉韶濤,李洪勝. 華僑大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[2]一種基于本體語義的災(zāi)害主題爬蟲策略[J]. 馬雷雷,李宏偉,連世偉,梁汝鵬,陳虎. 計(jì)算機(jī)工程. 2016(11)
[3]Mining and Harvesting High Quality Topical Resources from the Web[J]. ZHAO Wei,GUAN Ziyu,CAO Zhengwen,LIU Zheng. Chinese Journal of Electronics. 2016(01)
[4]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強(qiáng). 計(jì)算機(jī)工程與科學(xué). 2015(02)
[5]一種新的基于概念樹的主題網(wǎng)絡(luò)爬蟲方法[J]. 謝志妮. 計(jì)算機(jī)與現(xiàn)代化. 2010(04)
[6]基于敘詞表的主題爬蟲技術(shù)研究[J]. 夏崇鐠,康麗. 現(xiàn)代圖書情報(bào)技術(shù). 2007(05)
碩士論文
[1]基于主題爬蟲的食品安全網(wǎng)絡(luò)輿情分析方法研究與監(jiān)測(cè)系統(tǒng)開發(fā)[D]. 吳強(qiáng)強(qiáng).北京化工大學(xué) 2016
本文編號(hào):3460411
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3460411.html
最近更新
教材專著