基于決策樹的URL分類器算法及主題爬蟲平臺設(shè)計
本文關(guān)鍵詞:基于決策樹的URL分類器算法及主題爬蟲平臺設(shè)計,,由筆耕文化傳播整理發(fā)布。
【摘要】:偌大的互聯(lián)網(wǎng)已經(jīng)演變成了一個巨大的知識寶庫,對這個知識寶庫的探索、挖掘和分析是當(dāng)下的一個熱門應(yīng)用領(lǐng)域。在對這個知識寶庫進行探索和知識萃取之前,首要的一步是要收集原始數(shù)據(jù)。面對如此巨大的知識寶庫,采用像谷歌、雅虎那樣的通用搜索引擎尋找與用戶定義主題相關(guān)的高質(zhì)量網(wǎng)頁很難得到較好的效果,并且與用戶定義主題相關(guān)的高質(zhì)量網(wǎng)面往往沒有聚合在一起,而是比較分散,這為高質(zhì)量原始數(shù)據(jù)的篩選工作增加了額外的負(fù)擔(dān)。通用搜索引擎的爬蟲程序通常采用廣度優(yōu)先的爬行策略,即通用搜索引擎爬蟲程序按照一定的層次順序依次爬取互聯(lián)網(wǎng)上的網(wǎng)頁,追求的目標(biāo)是對互聯(lián)網(wǎng)上網(wǎng)頁的廣泛采集。與通用搜索引擎爬蟲程序不同的是,主題爬蟲具備一個用于指導(dǎo)爬蟲爬行方向的爬行策略,其中基于網(wǎng)頁鏈接拓?fù)浣Y(jié)構(gòu)的爬行策略和基于網(wǎng)頁內(nèi)容的爬行策略是最經(jīng)常使用的爬行策略。通過爬行策略的引導(dǎo),主題爬蟲可以帶有目的性的找到與用戶定義主題相關(guān)的網(wǎng)頁,這在一定程度上避免了與用戶定義主題無關(guān)網(wǎng)頁的下載,節(jié)省寶貴的帶寬資源。主題爬蟲爬取網(wǎng)頁的準(zhǔn)確率是衡量主題爬蟲性能的重要指標(biāo)之一。首先,本文對主題爬蟲的基本原理和系統(tǒng)架構(gòu)進行深入研究,并對基于網(wǎng)頁鏈接拓?fù)浣Y(jié)構(gòu)的爬行策略和基于網(wǎng)頁內(nèi)容的爬行策略的代表性算法做詳細研究,比較這些算法各自的優(yōu)缺點和使用場景。然后詳細闡述網(wǎng)頁文本處理技術(shù),包括網(wǎng)頁HTML文檔的DOM樹解析方法和正則表達式解析方法,對解析之后文本的分詞處理和文本的向量空間模型表示方法以及基于向量空間表示模型的文本相似度計算方法。其次,在對主題爬蟲程序的基本原理和架構(gòu)進行深入研究之后,提出了基于決策樹的URL分類器算法。該分類器算法利用網(wǎng)頁中的4個HTML標(biāo)簽對URL進行分類。4個標(biāo)簽分別是:h1,h2,h3標(biāo)簽(heading)、網(wǎng)頁的標(biāo)題(title)、鏈接的錨文本(anchor)和鏈接上下文(context)。利用這4個HTML標(biāo)簽對應(yīng)的文本內(nèi)容與用戶定義主題的相似度來構(gòu)建決策樹,對當(dāng)前網(wǎng)頁中包含的其他URL進行分類。將分類結(jié)果為與主題相關(guān)的URL放入優(yōu)先爬行的URL隊列,而將分類結(jié)果為與主題不相關(guān)的URL放入延遲爬取隊列,當(dāng)優(yōu)先爬取隊列為空時再爬取延遲爬取隊列,這樣保證較高準(zhǔn)確率的同時又能在一定程度上避免主題爬蟲“隧道穿越”問題。最后,利用開源網(wǎng)絡(luò)爬蟲程序框架設(shè)計了基于決策樹的URL分類器算法的主題爬蟲實現(xiàn)。實驗結(jié)果表明,經(jīng)過URL分類器分類處理的主題爬蟲算法與傳統(tǒng)的Fish-Search算法實現(xiàn)的主題爬蟲相比較,本文實現(xiàn)的主題爬蟲的爬取的網(wǎng)頁準(zhǔn)確率有一定提高,在5%-7%左右。
【關(guān)鍵詞】:主題爬蟲 決策樹 URL分類器 爬行策略
【學(xué)位授予單位】:成都理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 引言10-16
- 1.1 研究背景10-11
- 1.2 研究目的和意義11
- 1.3 國內(nèi)外研究現(xiàn)狀11-13
- 1.4 本文研究內(nèi)容13-14
- 1.5 論文組織結(jié)構(gòu)14-16
- 第2章 主題爬蟲關(guān)鍵技術(shù)研究16-27
- 2.1 搜索引擎簡介16-18
- 2.2 主題爬蟲原理18-21
- 2.3 主題爬蟲的爬行策略研究21-26
- 2.3.1 基于網(wǎng)頁鏈接關(guān)系的爬行策略21-24
- 2.3.2 基于網(wǎng)頁內(nèi)容的爬行策略24-26
- 本章小結(jié)26-27
- 第3章 網(wǎng)頁文本內(nèi)容處理技術(shù)研究27-38
- 3.1 網(wǎng)頁文本內(nèi)容預(yù)處理27-31
- 3.1.1 HTML文檔結(jié)構(gòu)與解析27-30
- 3.1.2 網(wǎng)頁文本內(nèi)容的分詞處理30-31
- 3.2 網(wǎng)頁文本內(nèi)容的表示模型31-33
- 3.2.1 布爾表示模型32
- 3.2.2 向量空間表示模型32-33
- 3.3 網(wǎng)頁文本內(nèi)容特征抽取33-37
- 3.3.1 網(wǎng)頁文本內(nèi)容特征詞選擇算法33-36
- 3.3.2 網(wǎng)頁文本內(nèi)容特征詞權(quán)重計算36-37
- 本章小結(jié)37-38
- 第4章 基于決策樹的URL分類器構(gòu)建38-46
- 4.1 決策樹分類算法研究38-41
- 4.1.1 決策樹模型38
- 4.1.2 特征選擇方法38-40
- 4.1.3 決策樹生成算法40-41
- 4.2 URL分類器的構(gòu)建41-45
- 4.2.1 URL分類特征的選取41-44
- 4.2.2 URL分類器模型訓(xùn)練44-45
- 本章小結(jié)45-46
- 第5章 主題爬蟲系統(tǒng)設(shè)計與結(jié)果分析46-57
- 5.1 主題爬蟲系統(tǒng)平臺搭建46-49
- 5.1.1 系統(tǒng)的軟硬件環(huán)境46-47
- 5.1.2 Scrapy爬蟲程序框架47-48
- 5.1.3 NLTK自然語言處理程序庫48-49
- 5.2 主題爬蟲的系統(tǒng)架構(gòu)49-53
- 5.2.1 種子URL的選取50
- 5.2.2 主題特征向量的生成50-51
- 5.2.3 網(wǎng)頁的采集與分析51-52
- 5.2.4 URL評價器設(shè)計52-53
- 5.3 主題爬蟲系統(tǒng)實驗結(jié)果與分析53-56
- 5.3.1 性能指標(biāo)53-54
- 5.3.2 結(jié)果分析54-56
- 本章小結(jié)56-57
- 結(jié)論與展望57-59
- 致謝59-60
- 參考文獻60-63
- 攻讀學(xué)位期間獲得的學(xué)術(shù)成果63
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳玲達,謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動收集與處理系統(tǒng)的研制[J];計算機應(yīng)用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程與應(yīng)用;2005年31期
3 周亦鵬;杜軍平;;基于時空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計算機信息;2010年27期
5 何利益;陸國鋒;羅鵬;;動態(tài)新聞主題信息推薦系統(tǒng)設(shè)計[J];指揮信息系統(tǒng)與技術(shù);2013年04期
6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計算機仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計算機研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報技術(shù);2008年12期
10 朱夢麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機與應(yīng)用;2011年19期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評論發(fā)現(xiàn)[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 薛利;面向證券應(yīng)用的WEB主題觀點挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 yち
本文編號:293674
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/293674.html