面向主題的網(wǎng)絡爬蟲系統(tǒng)的設計與實現(xiàn)
發(fā)布時間:2023-10-22 12:38
隨著互聯(lián)網(wǎng)的普及和網(wǎng)絡規(guī)模的擴大,網(wǎng)頁數(shù)據(jù)量遠遠超過了通用搜索引擎的覆蓋范圍。為提高抓取資源的質量,產(chǎn)生了主題網(wǎng)絡爬蟲。在爬取過程中,主題網(wǎng)絡爬蟲傾向于訪問主題相似度高的頁面。傳統(tǒng)的主題爬蟲策略通;诰W(wǎng)頁文本內容或網(wǎng)頁鏈接結構對網(wǎng)頁主題進行分析。基于網(wǎng)頁文本內容的主題判定策略只關注了網(wǎng)頁正文文本信息,由于沒有關注鏈接結構容易陷入局部最優(yōu)解;基于網(wǎng)頁鏈接結構的主題判定策略能夠通過多個網(wǎng)頁鏈接預測網(wǎng)頁主題,但是由于缺少文本輔助判定主題相關性,經(jīng)常會導致爬蟲出現(xiàn)“主題偏移”。盡管現(xiàn)在有混合主題爬行策略的相關研究,改進了主題判定和爬取算法,但在查全率、查準率以及爬取速度方面仍然存在可提升的空間。為了提升主題爬蟲的主題判定性能,本文提出了基于HowNet的文本主題相似度判定算法。首先提出了基于“知網(wǎng)”(HowNet)的主題相似度評價方法,針對傳統(tǒng)信息量(IC)評價方法計算不夠準確的缺點,本文對傳統(tǒng)IC計算模型進行了改進。在IC計算過程中增加上位詞、同義詞、近義詞和多義詞的處理。針對向量空間模型(VSM)向量維度過高的問題,提出了一種基于HowNet的文本特征降維方法。在利用詞頻-逆文檔頻率算法...
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究的背景和意義
1.2 論文內容和創(chuàng)新點
1.3 研究生期間主要工作
1.4 論文結構
第二章 相關國內外技術研究
2.1 主題爬蟲技術研究現(xiàn)狀
2.1.1 基于文本內容的主題判定策略
2.1.2 基于網(wǎng)頁鏈接結構的主題判定策略
2.1.3 基于文本內容和網(wǎng)頁鏈接結構的混合主題判定策略
2.2 HowNet研究現(xiàn)狀
2.3 基于HowNet的文本主題相似度評價研究現(xiàn)狀
2.4 知識圖譜研究現(xiàn)狀
2.5 本章小結
第三章 混合主題相似度判定算法
3.1 引言
3.2 基于HowNet的文本主題相似度評價方法
3.2.1 基于HowNet的IC計算模型的改進
3.2.2 基于HowNet的文本特征降維方法
3.2.3 基于知識圖譜的主題對比文本
3.3 改進的混合主題相似度判定方法
3.4 仿真實驗及結論
3.4.1 實驗開發(fā)環(huán)境
3.4.2 數(shù)據(jù)準備
3.4.3 性能指標
3.4.4 實驗方案和結果分析
3.5 本章小結
第四章 混合主題爬蟲設計與實現(xiàn)
4.1 引言
4.2 混合主題爬蟲需求分析與概要設計
4.2.1 系統(tǒng)功能需求分析
4.2.2 系統(tǒng)基本結構
4.2.3 系統(tǒng)處理流程
4.2.4 數(shù)據(jù)結構設計
4.3 混合主題爬蟲系統(tǒng)詳細設計與實現(xiàn)
4.3.1 網(wǎng)頁解析模塊詳細設計與實現(xiàn)
4.3.2 文本處理模塊詳細設計與實現(xiàn)
4.3.3 主題策略模塊詳細設計與實現(xiàn)
4.3.4 主題對比文本模塊詳細設計與實現(xiàn)
4.4 系統(tǒng)測試
4.4.1 測試環(huán)境
4.4.2 功能測試
4.4.3 性能測試
4.5 本章小結
第五章 總結和展望
第六章 參考文獻
第七章 致謝
第八章 攻讀學位期間發(fā)表的學術論文目錄
本文編號:3856535
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究的背景和意義
1.2 論文內容和創(chuàng)新點
1.3 研究生期間主要工作
1.4 論文結構
第二章 相關國內外技術研究
2.1 主題爬蟲技術研究現(xiàn)狀
2.1.1 基于文本內容的主題判定策略
2.1.2 基于網(wǎng)頁鏈接結構的主題判定策略
2.1.3 基于文本內容和網(wǎng)頁鏈接結構的混合主題判定策略
2.2 HowNet研究現(xiàn)狀
2.3 基于HowNet的文本主題相似度評價研究現(xiàn)狀
2.4 知識圖譜研究現(xiàn)狀
2.5 本章小結
第三章 混合主題相似度判定算法
3.1 引言
3.2 基于HowNet的文本主題相似度評價方法
3.2.1 基于HowNet的IC計算模型的改進
3.2.2 基于HowNet的文本特征降維方法
3.2.3 基于知識圖譜的主題對比文本
3.3 改進的混合主題相似度判定方法
3.4 仿真實驗及結論
3.4.1 實驗開發(fā)環(huán)境
3.4.2 數(shù)據(jù)準備
3.4.3 性能指標
3.4.4 實驗方案和結果分析
3.5 本章小結
第四章 混合主題爬蟲設計與實現(xiàn)
4.1 引言
4.2 混合主題爬蟲需求分析與概要設計
4.2.1 系統(tǒng)功能需求分析
4.2.2 系統(tǒng)基本結構
4.2.3 系統(tǒng)處理流程
4.2.4 數(shù)據(jù)結構設計
4.3 混合主題爬蟲系統(tǒng)詳細設計與實現(xiàn)
4.3.1 網(wǎng)頁解析模塊詳細設計與實現(xiàn)
4.3.2 文本處理模塊詳細設計與實現(xiàn)
4.3.3 主題策略模塊詳細設計與實現(xiàn)
4.3.4 主題對比文本模塊詳細設計與實現(xiàn)
4.4 系統(tǒng)測試
4.4.1 測試環(huán)境
4.4.2 功能測試
4.4.3 性能測試
4.5 本章小結
第五章 總結和展望
第六章 參考文獻
第七章 致謝
第八章 攻讀學位期間發(fā)表的學術論文目錄
本文編號:3856535
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3856535.html
最近更新
教材專著