天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類研究與實現(xiàn).pdf 全文

發(fā)布時間:2016-09-04 16:14

  本文關鍵詞:搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。


中國科學技術大學 碩士學位論文 搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn) 姓名:梁萍 申請學位級別:碩士 專業(yè):模式識別與智能系統(tǒng) 指導教師:帥建梅 2011-05-12摘 要 摘 要 隨著網(wǎng)絡科技和搜索技術的快速發(fā)展,人們生活中越來越多地通過互聯(lián)網(wǎng) 和搜索引擎來獲取各種信息。搜索引擎通過網(wǎng)絡爬蟲定期地從互聯(lián)網(wǎng)上抓取新 的網(wǎng)頁,并為網(wǎng)頁內(nèi)容建立索引數(shù)據(jù)庫,以方便后續(xù)的信息檢索。網(wǎng)絡爬蟲的 爬行效率直接影響著搜索引擎的檢索效果,爬行的規(guī)模越大,周期越短,查全 率就越高。另一方面,近年來隨著搜索引擎提供服務的多樣性,網(wǎng)絡成為人們 獲取新聞資訊的主要媒介之一,新聞熱點搜索等方面的中文短文本在線聚類和 語詞間語義層面的聚類需求越來越多。 本文主要針對搜索引擎中的網(wǎng)絡爬蟲和搜索結(jié)果的短文本聚類進行了研 究。在網(wǎng)絡爬蟲方面,為了提高爬蟲性能,主要是對爬蟲的核心模塊??頁面 解析模塊和去重模塊分別給出了相應的改進方法。 (1)對于爬蟲的頁面解析方法,本文改變了 Weblech 等開源爬蟲中所使用 的利用 HTML tag 標簽匹配抽取的方式,而是將半結(jié)構(gòu)化的文檔轉(zhuǎn)化為 XML, 進而表示成 DOM 文檔對象模型來抽取內(nèi)容,這種方式充分利用了結(jié)構(gòu)化信息 容易抽取的優(yōu)勢,同時也方便使用很多優(yōu)秀的讀寫 XML 的開源程序比如 DOM4J,JDOM 來改進程序的效率。 (2)爬蟲系統(tǒng)中如何高效去重是個較復雜的議題,傳統(tǒng)的概率算法 Bloom Filter 在 URLs 去重上表現(xiàn)出了非常好的空間效率,但也伴隨著一定的誤判率, 且誤判率會隨著爬行規(guī)模的增大而提高。本文提出一種基于 Bloom Filter 的分 段哈希算法對爬蟲的 URLs 去重模塊進行了改進,在減小誤判率的基礎上提高 爬蟲性能。 通過對上述頁面解析和 URLs 去重改進方法的實


  本文關鍵詞:搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。

,

本文編號:109021

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/109021.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶6262c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com