天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

主題網(wǎng)絡爬蟲關鍵技術的研究與應用

發(fā)布時間:2017-05-19 15:16

  本文關鍵詞:主題網(wǎng)絡爬蟲關鍵技術的研究與應用,,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)技術的快速發(fā)展帶動著Web信息量的急劇增長。從大量網(wǎng)頁中快速、準確查找需要的信息,特別是針對特定領域、主題的信息檢索成為了人們越來越迫切的需求。搜索引擎如何采集主題相關的Web信息、對信息內(nèi)容有效組織和定位,并將相關檢索結(jié)果快速展示給用戶變得尤為重要。本文分析了主題爬蟲研究的必要性,重點研究了頁面主題相關性判別和主題信息在爬蟲Web頁面搜索中的指導作用。在此基礎上,論文對主題爬蟲系統(tǒng)的關鍵模塊進行了研究和設計,主要包括以下幾個模塊:頁面下載、正文提取、主題判別、鏈接價值預測、調(diào)度模塊和主題庫存儲模塊。所做的主要研究工作如下: (1)分析了網(wǎng)頁正文的內(nèi)容特征和分布特征,按照網(wǎng)頁中正文分布遵循一定的規(guī)則,提出了一種基于句子分塊密度和標點符號的網(wǎng)頁正文提取算法。 (2)研究了文本內(nèi)部詞語的分布網(wǎng)絡特點,利用基于語義加權網(wǎng)絡的關鍵詞提取方法構建訓練文本的類別關鍵詞,并設計了一種基于類別關鍵詞的貝葉斯分類器,用于判斷網(wǎng)頁是否與主題相關。 (3)通過分析Web鏈接和Web頁面分布的特點,提出了一種改進的基于鏈接內(nèi)容價值評價的搜索策略。 (4)根據(jù)上述頁面主題判別算法和改進的搜索策略,用JAVA語言編寫了一套主題爬蟲系統(tǒng)程序。利用該系統(tǒng)對大量網(wǎng)頁進行測試,結(jié)果表明上述改進方法效果良好。
【關鍵詞】:主題爬蟲 相關性判別 搜索策略 正文提取 關鍵詞提取
【學位授予單位】:北京理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 緒論10-16
  • 1.1 研究背景與意義10-11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-14
  • 1.2.1 國外研究現(xiàn)狀12-13
  • 1.2.2 國內(nèi)研究現(xiàn)狀13-14
  • 1.3 研究中的主要問題14
  • 1.4 本文組織結(jié)構14-16
  • 第2章 主題爬蟲模型16-27
  • 2.1 主題爬蟲系統(tǒng)框架17-18
  • 2.2 頁面下載模塊18-19
  • 2.3 正文提取模塊19-23
  • 2.4 主題判別模塊23-26
  • 2.4.1 向量空間模型24
  • 2.4.2 常用分類算法24-26
  • 2.5 本章小結(jié)26-27
  • 第3章 基于改進貝葉斯分類器的主題判別算法27-39
  • 3.1 樸素貝葉斯分類27-28
  • 3.2 特征降維28-31
  • 3.3 文本關鍵詞自動提取31-36
  • 3.3.1 語義加權網(wǎng)絡31-32
  • 3.3.2 詞語重要性度量32-34
  • 3.3.3 關鍵詞提取算法34-36
  • 3.4 改進貝葉斯分類器判別主題36-37
  • 3.5 實驗分析37-38
  • 3.6 本章小結(jié)38-39
  • 第4章 主題搜索策略研究39-48
  • 4.1 Web 鏈接和頁面分布特性39-41
  • 4.1.1 鏈接構成分析39
  • 4.1.2 主題頁面分布特性39-41
  • 4.2 通用搜索策略41-42
  • 4.3 常用主題搜索策略42-44
  • 4.3.1 基于內(nèi)容評價的搜索策略42-43
  • 4.3.2 基于鏈接結(jié)構評價的搜索策略43-44
  • 4.4 改進的 Best-First 搜索策略44-47
  • 4.5 本章小結(jié)47-48
  • 第5章 主題爬蟲系統(tǒng)設計與實現(xiàn)48-58
  • 5.1 主題爬蟲系統(tǒng)實現(xiàn)48-51
  • 5.1.1 軟硬件環(huán)境48
  • 5.1.2 系統(tǒng)實現(xiàn)結(jié)構48-49
  • 5.1.3 系統(tǒng)工作流程49-51
  • 5.2 正文提取模塊測試51-52
  • 5.2.1 單一頁面測試51-52
  • 5.2.2 準確率測試52
  • 5.3 關鍵詞提取模塊測試52-54
  • 5.3.1 單文本測試52-53
  • 5.3.2 準確率測試53-54
  • 5.4 主題判別模塊測試54-56
  • 5.4.1 基于類別關鍵詞的貝葉斯分類算法搜索效率測試54-55
  • 5.4.2 類別關鍵詞比例λ的設置55-56
  • 5.5 改進的搜索策略測試56-57
  • 5.6 本章小結(jié)57-58
  • 結(jié)論58-60
  • 參考文獻60-64
  • 攻讀碩士期間發(fā)表論文與研究成果清單64-65
  • 致謝65

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學學報;2009年04期

2 張麗敏;;垂直搜索引擎的主題爬蟲策略[J];電腦知識與技術;2010年15期

3 高燕;;關鍵詞自動標引方法綜述[J];電子世界;2012年06期

4 楊麗萍;;網(wǎng)頁正文提取技術的分析與研究[J];計算機光盤軟件與應用;2012年22期

5 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類器[J];哈爾濱工程大學學報;2003年01期

6 盧葦;彭雅;;幾種常用文本分類算法性能比較與分析[J];湖南大學學報(自然科學版);2007年06期

7 李學勇,歐陽柳波,李國徽,鐘敏娟;網(wǎng)絡蜘蛛搜索策略比較研究[J];計算機工程與應用;2004年04期

8 印鑒,陳憶群,張鋼;搜索引擎技術研究與發(fā)展[J];計算機工程;2005年14期

9 李學勇,田立軍,譚義紅,歐陽柳波,李國徽;一種基于非貪婪策略的網(wǎng)絡蜘蛛搜索算法[J];計算技術與自動化;2004年02期

10 李勇;韓亮;;主題搜索引擎中網(wǎng)絡爬蟲的搜索策略研究[J];計算機工程與科學;2008年03期


  本文關鍵詞:主題網(wǎng)絡爬蟲關鍵技術的研究與應用,由筆耕文化傳播整理發(fā)布。



本文編號:379041

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/379041.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1d046***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美午夜国产在线观看| 亚洲av一区二区三区精品| 成人午夜视频精品一区| 日韩成人动画在线观看 | 国产精欧美一区二区三区久久| 福利视频一区二区在线| 国产午夜免费在线视频| av中文字幕一区二区三区在线 | 亚洲男人天堂成人在线视频| 日本精品中文字幕人妻| 不卡一区二区高清视频| 99视频精品免费视频| 欧美特色特黄一级大黄片| 欧美色欧美亚洲日在线| 伊人久久五月天综合网| 婷婷激情四射在线观看视频| 黄色片国产一区二区三区| 日本高清一区免费不卡| 欧美日韩精品一区二区三区不卡| 午夜福利国产精品不卡| 夫妻性生活动态图视频| 一区二区日本一区二区欧美| 日韩精品日韩激情日韩综合| 色丁香之五月婷婷开心| 妻子的新妈妈中文字幕| 亚洲成人黄色一级大片| 日本最新不卡免费一区二区| 成人日韩视频中文字幕| 欧美日韩无卡一区二区| 91亚洲国产成人久久精品麻豆| 中文字幕不卡欧美在线| 色婷婷视频免费在线观看| 老熟妇乱视频一区二区| 麻豆果冻传媒一二三区| 国产内射一级一片内射高清视频| 日本国产欧美精品视频| 日韩一区二区三区在线日| 国产欧美高清精品一区| 老熟妇乱视频一区二区| 男人大臿蕉香蕉大视频| 久久永久免费一区二区|