基于WEB頁面的主題搜索的研究與實現(xiàn)

發(fā)布時間：2017-05-17 22:04

本文關(guān)鍵詞：基于WEB頁面的主題搜索的研究與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著網(wǎng)絡時代的到來,互聯(lián)網(wǎng)的發(fā)展十分迅猛,網(wǎng)絡中的信息資源越來越豐富,用戶主要通過搜索引擎來獲取所需的網(wǎng)絡信息。由于WEB網(wǎng)頁信息的爆炸式增長以及實時更新等特點,如何在海量的網(wǎng)絡信息中獲取人們搜索的特定主題信息,成為人們研究的重點課題。本論文的主要研究內(nèi)容是在設計實現(xiàn)考研信息采集系統(tǒng)的基礎上,基于WEB頁面、針對考研信息采集的主題搜索,著重研究了主題搜索的關(guān)鍵技術(shù),重點介紹了主題網(wǎng)絡爬蟲的搜索算法、主題相關(guān)度判定、網(wǎng)頁文本分類算法在該系統(tǒng)的設計與實現(xiàn)。本文的主要工作和創(chuàng)新點在于： 1.主題爬蟲的搜索算法設計與實現(xiàn)：在設計考研信息采集系統(tǒng)的主題爬蟲時,通過遺傳算法能夠從全局中選擇最優(yōu)化來控制考研主題爬蟲的爬行方向,避免其陷入局部最優(yōu)中。同時,非貪婪策略對URL鏈接對應的頁面有選擇的進行采集,將二者相結(jié)合,提出了非貪婪搜索遺傳算法,這樣既能保證主題爬蟲爬行方向的正確性,又能保證采集頁面的主題相關(guān)性。 2.主題相關(guān)度判定設計與實現(xiàn)：通過建立向量空間模型對采集頁面包含的信息進行主題相關(guān)度的判定,本系統(tǒng)利用超鏈接所處的頁面、對應的錨文本、鏈接自身來計算主題的相關(guān)度。 3.網(wǎng)頁文本分類算法設計與實現(xiàn)：通過K-均值算法對初始數(shù)據(jù)的完整數(shù)據(jù)集進行聚類,計算缺失數(shù)據(jù)集中的記錄與簇的相似性,將其加入對應的簇中,然后通過樸素貝葉斯分類算法進行分類。經(jīng)過實驗測試,改進后的K-均值樸素貝葉斯算法的性能得到明顯的改善。綜合以上的各項研究,詳細描述了主題網(wǎng)絡爬蟲在考研信息采集系統(tǒng)的設計及實現(xiàn)過程。通過對主題爬蟲的性能測試,驗證了本系統(tǒng)設計的主題爬蟲搜索算法的有效性。
【關(guān)鍵詞】：主題網(wǎng)絡爬蟲 搜索算法 主題搜索 主題相關(guān)度
【學位授予單位】：北京郵電大學
【學位級別】：碩士
【學位授予年份】：2014
【分類號】：TP391.1
【目錄】：

摘要4-5
ABSTRACT5-10
第一章緒論10-16
1.1 研究背景和意義10-11
1.2 搜索引擎概述11-13
1.2.1 搜索引擎的概念11
1.2.2 搜索引擎分類11-12
1.2.3 主題搜索引擎12-13
1.3 主題搜索引擎的發(fā)展及研究現(xiàn)狀13
1.4 研究內(nèi)容和組織結(jié)構(gòu)13-16
1.4.1 本文的研究內(nèi)容13-14
1.4.2 本文的組織結(jié)構(gòu)14-16
第二章搜索引擎工作原理16-22
2.1 搜索引擎工作原理16-17
2.2 搜索引擎關(guān)鍵技術(shù)17-18
2.3 通用搜索引擎的不足18-19
2.4 搜索引擎核心技術(shù)19-21
2.4.1 網(wǎng)絡爬蟲19-20
2.4.2 網(wǎng)頁排名算法20-21
2.5 本章小結(jié)21-22
第三章主題搜索引擎技術(shù)22-30
3.1 主題搜索引擎概述22-24
3.1.1 產(chǎn)生背景22-23
3.1.2 基本體系結(jié)構(gòu)23
3.1.3 主題搜索引擎的關(guān)鍵技術(shù)23-24
3.2 主題網(wǎng)絡爬蟲24-29
3.2.1 通用網(wǎng)絡爬蟲概述24-26
3.2.2 主題網(wǎng)絡爬蟲的工作原理26
3.2.3 主題網(wǎng)絡爬蟲的設計26-28
3.2.4 主題網(wǎng)絡爬蟲的關(guān)鍵技術(shù)28-29
3.3 本章小結(jié)29-30
第四章系統(tǒng)關(guān)鍵技術(shù)研究30-49
4.1 主題網(wǎng)絡爬蟲的非貪婪遺傳算法30-35
4.1.1 基于網(wǎng)絡搜索的遺傳算法30-31
4.1.2 基于超鏈接的非貪婪選擇策略31-32
4.1.3 非貪婪遺傳搜索算法的介紹32-33
4.1.4 相關(guān)性能分析33-35
4.2 HTML網(wǎng)頁解析35-37
4.2.1 HTML網(wǎng)頁的基本結(jié)構(gòu)35-36
4.2.2 HTML網(wǎng)頁的樹型結(jié)構(gòu)36
4.2.3 HTML網(wǎng)頁解析36-37
4.3 WEB網(wǎng)頁信息分析37-40
4.3.1 網(wǎng)頁文本信息預處理37
4.3.2 網(wǎng)頁文本中文分詞方法37-39
4.3.3 特征向量權(quán)重計算39-40
4.4 頁面主題相關(guān)度判定40-44
4.4.1 網(wǎng)頁文本內(nèi)容與主題相關(guān)度的判定40-42
4.4.2 URL超鏈接與主題相關(guān)度的判定42-44
4.5 WEB網(wǎng)頁文本分類算法44-47
4.5.1 WEB網(wǎng)頁文本分類概述44
4.5.2 樸素貝葉斯分類算法介紹44-45
4.5.3 基于改進的K-均值的樸素貝葉斯分類算法介紹45-47
4.5.4 性能分析47
4.6 本章小結(jié)47-49
第五章主題搜索在考研信息采集系統(tǒng)中的應用設計49-69
5.1 系統(tǒng)概述49-51
5.1.1 系統(tǒng)的設計原則49
5.1.2 系統(tǒng)的基本結(jié)構(gòu)49-51
5.2 初始種子URL鏈接選取模塊的設計51-53
5.3 URL超鏈接調(diào)度模塊的設計53-56
5.3.1 URL鏈接的類型53-54
5.3.2 URL鏈接的調(diào)度54-56
5.4 頁面采集模塊的設計56-57
5.5 頁面解析模塊的設計57-62
5.5.1 頁面結(jié)構(gòu)解析57-59
5.5.2 網(wǎng)頁文本分析59-62
5.6 主題相關(guān)性判定模塊的設計62-65
5.7 數(shù)據(jù)存儲模塊的設計65-66
5.7.1 存儲數(shù)據(jù)類型65-66
5.7.2 數(shù)據(jù)庫的設計66
5.8 信息查詢模塊的設計66-68
5.9 本章小結(jié)68-69
第六章系統(tǒng)測試與分析69-76
6.1 實驗環(huán)境設置69
6.2 系統(tǒng)實現(xiàn)69-72
6.3 性能指標72-73
6.4 結(jié)果分析73-75
6.5 本章小結(jié)75-76
第七章總結(jié)與展望76-78
7.1 研究工作的總結(jié)76
7.2 下一步的工作展望76-78
參考文獻78-81
致謝81

【參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 陸鋒;最短路徑算法:分類體系與研究進展[J];測繪學報;2001年03期

2 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類器[J];哈爾濱工程大學學報;2003年01期

3 張衛(wèi)豐,徐寶文;Web搜索引擎框架研究[J];計算機研究與發(fā)展;2000年03期

4 王熙照,王亞東,湛燕,袁方;學習特征權(quán)值對K-均值聚類算法的優(yōu)化[J];計算機研究與發(fā)展;2003年06期

5 石晶,龔震宇,裘杭萍,張毓森;一種更穩(wěn)定的鏈接分析算法——子空間HITS算法[J];吉林大學學報(理學版);2003年01期

6 徐鳳亞,羅振聲;文本自動分類中特征權(quán)重算法的改進研究[J];計算機工程與應用;2005年01期

7 秦鋒;任詩流;程澤凱;羅慧;;基于屬性加權(quán)的樸素貝葉斯分類算法[J];計算機工程與應用;2008年06期

8 周德懋;李舟軍;;高性能網(wǎng)絡爬蟲:研究綜述[J];計算機科學;2009年08期

9 印鑒,陳憶群,張鋼;搜索引擎技術(shù)研究與發(fā)展[J];計算機工程;2005年14期

10 黃德才;戚華春;;PageRank算法研究[J];計算機工程;2006年04期

本文關(guān)鍵詞：基于WEB頁面的主題搜索的研究與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

，

本文編號：374565

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/374565.html

上一篇：基于語義網(wǎng)的陶瓷云平臺服務檢索
下一篇：安卓技術(shù)信息的主題爬蟲技術(shù)研究與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于WEB頁面的主題搜索的研究與實現(xiàn)