天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于WEB頁面的主題搜索的研究與實(shí)現(xiàn)

發(fā)布時間:2017-05-17 22:04

  本文關(guān)鍵詞:基于WEB頁面的主題搜索的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著網(wǎng)絡(luò)時代的到來,互聯(lián)網(wǎng)的發(fā)展十分迅猛,網(wǎng)絡(luò)中的信息資源越來越豐富,用戶主要通過搜索引擎來獲取所需的網(wǎng)絡(luò)信息。由于WEB網(wǎng)頁信息的爆炸式增長以及實(shí)時更新等特點(diǎn),如何在海量的網(wǎng)絡(luò)信息中獲取人們搜索的特定主題信息,成為人們研究的重點(diǎn)課題。 本論文的主要研究內(nèi)容是在設(shè)計實(shí)現(xiàn)考研信息采集系統(tǒng)的基礎(chǔ)上,基于WEB頁面、針對考研信息采集的主題搜索,著重研究了主題搜索的關(guān)鍵技術(shù),重點(diǎn)介紹了主題網(wǎng)絡(luò)爬蟲的搜索算法、主題相關(guān)度判定、網(wǎng)頁文本分類算法在該系統(tǒng)的設(shè)計與實(shí)現(xiàn)。本文的主要工作和創(chuàng)新點(diǎn)在于: 1.主題爬蟲的搜索算法設(shè)計與實(shí)現(xiàn):在設(shè)計考研信息采集系統(tǒng)的主題爬蟲時,通過遺傳算法能夠從全局中選擇最優(yōu)化來控制考研主題爬蟲的爬行方向,避免其陷入局部最優(yōu)中。同時,非貪婪策略對URL鏈接對應(yīng)的頁面有選擇的進(jìn)行采集,將二者相結(jié)合,提出了非貪婪搜索遺傳算法,這樣既能保證主題爬蟲爬行方向的正確性,又能保證采集頁面的主題相關(guān)性。 2.主題相關(guān)度判定設(shè)計與實(shí)現(xiàn):通過建立向量空間模型對采集頁面包含的信息進(jìn)行主題相關(guān)度的判定,本系統(tǒng)利用超鏈接所處的頁面、對應(yīng)的錨文本、鏈接自身來計算主題的相關(guān)度。 3.網(wǎng)頁文本分類算法設(shè)計與實(shí)現(xiàn):通過K-均值算法對初始數(shù)據(jù)的完整數(shù)據(jù)集進(jìn)行聚類,計算缺失數(shù)據(jù)集中的記錄與簇的相似性,將其加入對應(yīng)的簇中,然后通過樸素貝葉斯分類算法進(jìn)行分類。經(jīng)過實(shí)驗(yàn)測試,改進(jìn)后的K-均值樸素貝葉斯算法的性能得到明顯的改善。 綜合以上的各項(xiàng)研究,詳細(xì)描述了主題網(wǎng)絡(luò)爬蟲在考研信息采集系統(tǒng)的設(shè)計及實(shí)現(xiàn)過程。通過對主題爬蟲的性能測試,驗(yàn)證了本系統(tǒng)設(shè)計的主題爬蟲搜索算法的有效性。
【關(guān)鍵詞】:主題網(wǎng)絡(luò)爬蟲 搜索算法 主題搜索 主題相關(guān)度
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-10
  • 第一章 緒論10-16
  • 1.1 研究背景和意義10-11
  • 1.2 搜索引擎概述11-13
  • 1.2.1 搜索引擎的概念11
  • 1.2.2 搜索引擎分類11-12
  • 1.2.3 主題搜索引擎12-13
  • 1.3 主題搜索引擎的發(fā)展及研究現(xiàn)狀13
  • 1.4 研究內(nèi)容和組織結(jié)構(gòu)13-16
  • 1.4.1 本文的研究內(nèi)容13-14
  • 1.4.2 本文的組織結(jié)構(gòu)14-16
  • 第二章 搜索引擎工作原理16-22
  • 2.1 搜索引擎工作原理16-17
  • 2.2 搜索引擎關(guān)鍵技術(shù)17-18
  • 2.3 通用搜索引擎的不足18-19
  • 2.4 搜索引擎核心技術(shù)19-21
  • 2.4.1 網(wǎng)絡(luò)爬蟲19-20
  • 2.4.2 網(wǎng)頁排名算法20-21
  • 2.5 本章小結(jié)21-22
  • 第三章 主題搜索引擎技術(shù)22-30
  • 3.1 主題搜索引擎概述22-24
  • 3.1.1 產(chǎn)生背景22-23
  • 3.1.2 基本體系結(jié)構(gòu)23
  • 3.1.3 主題搜索引擎的關(guān)鍵技術(shù)23-24
  • 3.2 主題網(wǎng)絡(luò)爬蟲24-29
  • 3.2.1 通用網(wǎng)絡(luò)爬蟲概述24-26
  • 3.2.2 主題網(wǎng)絡(luò)爬蟲的工作原理26
  • 3.2.3 主題網(wǎng)絡(luò)爬蟲的設(shè)計26-28
  • 3.2.4 主題網(wǎng)絡(luò)爬蟲的關(guān)鍵技術(shù)28-29
  • 3.3 本章小結(jié)29-30
  • 第四章 系統(tǒng)關(guān)鍵技術(shù)研究30-49
  • 4.1 主題網(wǎng)絡(luò)爬蟲的非貪婪遺傳算法30-35
  • 4.1.1 基于網(wǎng)絡(luò)搜索的遺傳算法30-31
  • 4.1.2 基于超鏈接的非貪婪選擇策略31-32
  • 4.1.3 非貪婪遺傳搜索算法的介紹32-33
  • 4.1.4 相關(guān)性能分析33-35
  • 4.2 HTML網(wǎng)頁解析35-37
  • 4.2.1 HTML網(wǎng)頁的基本結(jié)構(gòu)35-36
  • 4.2.2 HTML網(wǎng)頁的樹型結(jié)構(gòu)36
  • 4.2.3 HTML網(wǎng)頁解析36-37
  • 4.3 WEB網(wǎng)頁信息分析37-40
  • 4.3.1 網(wǎng)頁文本信息預(yù)處理37
  • 4.3.2 網(wǎng)頁文本中文分詞方法37-39
  • 4.3.3 特征向量權(quán)重計算39-40
  • 4.4 頁面主題相關(guān)度判定40-44
  • 4.4.1 網(wǎng)頁文本內(nèi)容與主題相關(guān)度的判定40-42
  • 4.4.2 URL超鏈接與主題相關(guān)度的判定42-44
  • 4.5 WEB網(wǎng)頁文本分類算法44-47
  • 4.5.1 WEB網(wǎng)頁文本分類概述44
  • 4.5.2 樸素貝葉斯分類算法介紹44-45
  • 4.5.3 基于改進(jìn)的K-均值的樸素貝葉斯分類算法介紹45-47
  • 4.5.4 性能分析47
  • 4.6 本章小結(jié)47-49
  • 第五章 主題搜索在考研信息采集系統(tǒng)中的應(yīng)用設(shè)計49-69
  • 5.1 系統(tǒng)概述49-51
  • 5.1.1 系統(tǒng)的設(shè)計原則49
  • 5.1.2 系統(tǒng)的基本結(jié)構(gòu)49-51
  • 5.2 初始種子URL鏈接選取模塊的設(shè)計51-53
  • 5.3 URL超鏈接調(diào)度模塊的設(shè)計53-56
  • 5.3.1 URL鏈接的類型53-54
  • 5.3.2 URL鏈接的調(diào)度54-56
  • 5.4 頁面采集模塊的設(shè)計56-57
  • 5.5 頁面解析模塊的設(shè)計57-62
  • 5.5.1 頁面結(jié)構(gòu)解析57-59
  • 5.5.2 網(wǎng)頁文本分析59-62
  • 5.6 主題相關(guān)性判定模塊的設(shè)計62-65
  • 5.7 數(shù)據(jù)存儲模塊的設(shè)計65-66
  • 5.7.1 存儲數(shù)據(jù)類型65-66
  • 5.7.2 數(shù)據(jù)庫的設(shè)計66
  • 5.8 信息查詢模塊的設(shè)計66-68
  • 5.9 本章小結(jié)68-69
  • 第六章 系統(tǒng)測試與分析69-76
  • 6.1 實(shí)驗(yàn)環(huán)境設(shè)置69
  • 6.2 系統(tǒng)實(shí)現(xiàn)69-72
  • 6.3 性能指標(biāo)72-73
  • 6.4 結(jié)果分析73-75
  • 6.5 本章小結(jié)75-76
  • 第七章 總結(jié)與展望76-78
  • 7.1 研究工作的總結(jié)76
  • 7.2 下一步的工作展望76-78
  • 參考文獻(xiàn)78-81
  • 致謝81

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 陸鋒;最短路徑算法:分類體系與研究進(jìn)展[J];測繪學(xué)報;2001年03期

2 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類器[J];哈爾濱工程大學(xué)學(xué)報;2003年01期

3 張衛(wèi)豐,徐寶文;Web搜索引擎框架研究[J];計算機(jī)研究與發(fā)展;2000年03期

4 王熙照,王亞東,湛燕,袁方;學(xué)習(xí)特征權(quán)值對K-均值聚類算法的優(yōu)化[J];計算機(jī)研究與發(fā)展;2003年06期

5 石晶,龔震宇,裘杭萍,張毓森;一種更穩(wěn)定的鏈接分析算法——子空間HITS算法[J];吉林大學(xué)學(xué)報(理學(xué)版);2003年01期

6 徐鳳亞,羅振聲;文本自動分類中特征權(quán)重算法的改進(jìn)研究[J];計算機(jī)工程與應(yīng)用;2005年01期

7 秦鋒;任詩流;程澤凱;羅慧;;基于屬性加權(quán)的樸素貝葉斯分類算法[J];計算機(jī)工程與應(yīng)用;2008年06期

8 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計算機(jī)科學(xué);2009年08期

9 印鑒,陳憶群,張鋼;搜索引擎技術(shù)研究與發(fā)展[J];計算機(jī)工程;2005年14期

10 黃德才;戚華春;;PageRank算法研究[J];計算機(jī)工程;2006年04期


  本文關(guān)鍵詞:基于WEB頁面的主題搜索的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。

,

本文編號:374565

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/374565.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b7789***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com