搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類研究與實現(xiàn).pdf 全文

發(fā)布時間：2016-09-04 16:14

本文關鍵詞：搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

中國科學技術大學碩士學位論文 搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn) 姓名:梁萍申請學位級別:碩士專業(yè):模式識別與智能系統(tǒng) 指導教師:帥建梅 2011-05-12摘要摘要隨著網(wǎng)絡科技和搜索技術的快速發(fā)展,人們生活中越來越多地通過互聯(lián)網(wǎng) 和搜索引擎來獲取各種信息。搜索引擎通過網(wǎng)絡爬蟲定期地從互聯(lián)網(wǎng)上抓取新的網(wǎng)頁,并為網(wǎng)頁內(nèi)容建立索引數(shù)據(jù)庫,以方便后續(xù)的信息檢索。網(wǎng)絡爬蟲的爬行效率直接影響著搜索引擎的檢索效果,爬行的規(guī)模越大,周期越短,查全率就越高。另一方面,近年來隨著搜索引擎提供服務的多樣性,網(wǎng)絡成為人們獲取新聞資訊的主要媒介之一,新聞熱點搜索等方面的中文短文本在線聚類和語詞間語義層面的聚類需求越來越多。本文主要針對搜索引擎中的網(wǎng)絡爬蟲和搜索結(jié)果的短文本聚類進行了研究。在網(wǎng)絡爬蟲方面,為了提高爬蟲性能,主要是對爬蟲的核心模塊??頁面解析模塊和去重模塊分別給出了相應的改進方法。 (1)對于爬蟲的頁面解析方法,本文改變了 Weblech 等開源爬蟲中所使用的利用 HTML tag 標簽匹配抽取的方式,而是將半結(jié)構(gòu)化的文檔轉(zhuǎn)化為 XML, 進而表示成 DOM 文檔對象模型來抽取內(nèi)容,這種方式充分利用了結(jié)構(gòu)化信息容易抽取的優(yōu)勢,同時也方便使用很多優(yōu)秀的讀寫 XML 的開源程序比如 DOM4J,JDOM 來改進程序的效率。 (2)爬蟲系統(tǒng)中如何高效去重是個較復雜的議題,傳統(tǒng)的概率算法 Bloom Filter 在 URLs 去重上表現(xiàn)出了非常好的空間效率,但也伴隨著一定的誤判率, 且誤判率會隨著爬行規(guī)模的增大而提高。本文提出一種基于 Bloom Filter 的分段哈希算法對爬蟲的 URLs 去重模塊進行了改進,在減小誤判率的基礎上提高爬蟲性能。通過對上述頁面解析和 URLs 去重改進方法的實

本文關鍵詞：搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn)，由筆耕文化傳播整理發(fā)布。

，

本文編號：109021

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/109021.html

上一篇：e龍旅行網(wǎng)搜索引擎營銷策略研究.pdf
下一篇：面向Web2.0社區(qū)的爬蟲關鍵技術研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類研究與實現(xiàn).pdf 全文