基于WEB頁面的主題搜索的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于WEB頁面的主題搜索的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡(luò)時代的到來,互聯(lián)網(wǎng)的發(fā)展十分迅猛,網(wǎng)絡(luò)中的信息資源越來越豐富,用戶主要通過搜索引擎來獲取所需的網(wǎng)絡(luò)信息。由于WEB網(wǎng)頁信息的爆炸式增長以及實(shí)時更新等特點(diǎn),如何在海量的網(wǎng)絡(luò)信息中獲取人們搜索的特定主題信息,成為人們研究的重點(diǎn)課題。 本論文的主要研究內(nèi)容是在設(shè)計實(shí)現(xiàn)考研信息采集系統(tǒng)的基礎(chǔ)上,基于WEB頁面、針對考研信息采集的主題搜索,著重研究了主題搜索的關(guān)鍵技術(shù),重點(diǎn)介紹了主題網(wǎng)絡(luò)爬蟲的搜索算法、主題相關(guān)度判定、網(wǎng)頁文本分類算法在該系統(tǒng)的設(shè)計與實(shí)現(xiàn)。本文的主要工作和創(chuàng)新點(diǎn)在于: 1.主題爬蟲的搜索算法設(shè)計與實(shí)現(xiàn):在設(shè)計考研信息采集系統(tǒng)的主題爬蟲時,通過遺傳算法能夠從全局中選擇最優(yōu)化來控制考研主題爬蟲的爬行方向,避免其陷入局部最優(yōu)中。同時,非貪婪策略對URL鏈接對應(yīng)的頁面有選擇的進(jìn)行采集,將二者相結(jié)合,提出了非貪婪搜索遺傳算法,這樣既能保證主題爬蟲爬行方向的正確性,又能保證采集頁面的主題相關(guān)性。 2.主題相關(guān)度判定設(shè)計與實(shí)現(xiàn):通過建立向量空間模型對采集頁面包含的信息進(jìn)行主題相關(guān)度的判定,本系統(tǒng)利用超鏈接所處的頁面、對應(yīng)的錨文本、鏈接自身來計算主題的相關(guān)度。 3.網(wǎng)頁文本分類算法設(shè)計與實(shí)現(xiàn):通過K-均值算法對初始數(shù)據(jù)的完整數(shù)據(jù)集進(jìn)行聚類,計算缺失數(shù)據(jù)集中的記錄與簇的相似性,將其加入對應(yīng)的簇中,然后通過樸素貝葉斯分類算法進(jìn)行分類。經(jīng)過實(shí)驗(yàn)測試,改進(jìn)后的K-均值樸素貝葉斯算法的性能得到明顯的改善。 綜合以上的各項(xiàng)研究,詳細(xì)描述了主題網(wǎng)絡(luò)爬蟲在考研信息采集系統(tǒng)的設(shè)計及實(shí)現(xiàn)過程。通過對主題爬蟲的性能測試,驗(yàn)證了本系統(tǒng)設(shè)計的主題爬蟲搜索算法的有效性。
【關(guān)鍵詞】:主題網(wǎng)絡(luò)爬蟲 搜索算法 主題搜索 主題相關(guān)度
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-10
- 第一章 緒論10-16
- 1.1 研究背景和意義10-11
- 1.2 搜索引擎概述11-13
- 1.2.1 搜索引擎的概念11
- 1.2.2 搜索引擎分類11-12
- 1.2.3 主題搜索引擎12-13
- 1.3 主題搜索引擎的發(fā)展及研究現(xiàn)狀13
- 1.4 研究內(nèi)容和組織結(jié)構(gòu)13-16
- 1.4.1 本文的研究內(nèi)容13-14
- 1.4.2 本文的組織結(jié)構(gòu)14-16
- 第二章 搜索引擎工作原理16-22
- 2.1 搜索引擎工作原理16-17
- 2.2 搜索引擎關(guān)鍵技術(shù)17-18
- 2.3 通用搜索引擎的不足18-19
- 2.4 搜索引擎核心技術(shù)19-21
- 2.4.1 網(wǎng)絡(luò)爬蟲19-20
- 2.4.2 網(wǎng)頁排名算法20-21
- 2.5 本章小結(jié)21-22
- 第三章 主題搜索引擎技術(shù)22-30
- 3.1 主題搜索引擎概述22-24
- 3.1.1 產(chǎn)生背景22-23
- 3.1.2 基本體系結(jié)構(gòu)23
- 3.1.3 主題搜索引擎的關(guān)鍵技術(shù)23-24
- 3.2 主題網(wǎng)絡(luò)爬蟲24-29
- 3.2.1 通用網(wǎng)絡(luò)爬蟲概述24-26
- 3.2.2 主題網(wǎng)絡(luò)爬蟲的工作原理26
- 3.2.3 主題網(wǎng)絡(luò)爬蟲的設(shè)計26-28
- 3.2.4 主題網(wǎng)絡(luò)爬蟲的關(guān)鍵技術(shù)28-29
- 3.3 本章小結(jié)29-30
- 第四章 系統(tǒng)關(guān)鍵技術(shù)研究30-49
- 4.1 主題網(wǎng)絡(luò)爬蟲的非貪婪遺傳算法30-35
- 4.1.1 基于網(wǎng)絡(luò)搜索的遺傳算法30-31
- 4.1.2 基于超鏈接的非貪婪選擇策略31-32
- 4.1.3 非貪婪遺傳搜索算法的介紹32-33
- 4.1.4 相關(guān)性能分析33-35
- 4.2 HTML網(wǎng)頁解析35-37
- 4.2.1 HTML網(wǎng)頁的基本結(jié)構(gòu)35-36
- 4.2.2 HTML網(wǎng)頁的樹型結(jié)構(gòu)36
- 4.2.3 HTML網(wǎng)頁解析36-37
- 4.3 WEB網(wǎng)頁信息分析37-40
- 4.3.1 網(wǎng)頁文本信息預(yù)處理37
- 4.3.2 網(wǎng)頁文本中文分詞方法37-39
- 4.3.3 特征向量權(quán)重計算39-40
- 4.4 頁面主題相關(guān)度判定40-44
- 4.4.1 網(wǎng)頁文本內(nèi)容與主題相關(guān)度的判定40-42
- 4.4.2 URL超鏈接與主題相關(guān)度的判定42-44
- 4.5 WEB網(wǎng)頁文本分類算法44-47
- 4.5.1 WEB網(wǎng)頁文本分類概述44
- 4.5.2 樸素貝葉斯分類算法介紹44-45
- 4.5.3 基于改進(jìn)的K-均值的樸素貝葉斯分類算法介紹45-47
- 4.5.4 性能分析47
- 4.6 本章小結(jié)47-49
- 第五章 主題搜索在考研信息采集系統(tǒng)中的應(yīng)用設(shè)計49-69
- 5.1 系統(tǒng)概述49-51
- 5.1.1 系統(tǒng)的設(shè)計原則49
- 5.1.2 系統(tǒng)的基本結(jié)構(gòu)49-51
- 5.2 初始種子URL鏈接選取模塊的設(shè)計51-53
- 5.3 URL超鏈接調(diào)度模塊的設(shè)計53-56
- 5.3.1 URL鏈接的類型53-54
- 5.3.2 URL鏈接的調(diào)度54-56
- 5.4 頁面采集模塊的設(shè)計56-57
- 5.5 頁面解析模塊的設(shè)計57-62
- 5.5.1 頁面結(jié)構(gòu)解析57-59
- 5.5.2 網(wǎng)頁文本分析59-62
- 5.6 主題相關(guān)性判定模塊的設(shè)計62-65
- 5.7 數(shù)據(jù)存儲模塊的設(shè)計65-66
- 5.7.1 存儲數(shù)據(jù)類型65-66
- 5.7.2 數(shù)據(jù)庫的設(shè)計66
- 5.8 信息查詢模塊的設(shè)計66-68
- 5.9 本章小結(jié)68-69
- 第六章 系統(tǒng)測試與分析69-76
- 6.1 實(shí)驗(yàn)環(huán)境設(shè)置69
- 6.2 系統(tǒng)實(shí)現(xiàn)69-72
- 6.3 性能指標(biāo)72-73
- 6.4 結(jié)果分析73-75
- 6.5 本章小結(jié)75-76
- 第七章 總結(jié)與展望76-78
- 7.1 研究工作的總結(jié)76
- 7.2 下一步的工作展望76-78
- 參考文獻(xiàn)78-81
- 致謝81
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陸鋒;最短路徑算法:分類體系與研究進(jìn)展[J];測繪學(xué)報;2001年03期
2 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類器[J];哈爾濱工程大學(xué)學(xué)報;2003年01期
3 張衛(wèi)豐,徐寶文;Web搜索引擎框架研究[J];計算機(jī)研究與發(fā)展;2000年03期
4 王熙照,王亞東,湛燕,袁方;學(xué)習(xí)特征權(quán)值對K-均值聚類算法的優(yōu)化[J];計算機(jī)研究與發(fā)展;2003年06期
5 石晶,龔震宇,裘杭萍,張毓森;一種更穩(wěn)定的鏈接分析算法——子空間HITS算法[J];吉林大學(xué)學(xué)報(理學(xué)版);2003年01期
6 徐鳳亞,羅振聲;文本自動分類中特征權(quán)重算法的改進(jìn)研究[J];計算機(jī)工程與應(yīng)用;2005年01期
7 秦鋒;任詩流;程澤凱;羅慧;;基于屬性加權(quán)的樸素貝葉斯分類算法[J];計算機(jī)工程與應(yīng)用;2008年06期
8 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計算機(jī)科學(xué);2009年08期
9 印鑒,陳憶群,張鋼;搜索引擎技術(shù)研究與發(fā)展[J];計算機(jī)工程;2005年14期
10 黃德才;戚華春;;PageRank算法研究[J];計算機(jī)工程;2006年04期
本文關(guān)鍵詞:基于WEB頁面的主題搜索的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:374565
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/374565.html