搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類研究與實現(xiàn).pdf 全文
本文關鍵詞:搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
中國科學技術大學
碩士學位論文
搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn)
姓名:梁萍
申請學位級別:碩士
專業(yè):模式識別與智能系統(tǒng)
指導教師:帥建梅
2011-05-12摘 要
摘 要
隨著網(wǎng)絡科技和搜索技術的快速發(fā)展,人們生活中越來越多地通過互聯(lián)網(wǎng)
和搜索引擎來獲取各種信息。搜索引擎通過網(wǎng)絡爬蟲定期地從互聯(lián)網(wǎng)上抓取新
的網(wǎng)頁,并為網(wǎng)頁內(nèi)容建立索引數(shù)據(jù)庫,以方便后續(xù)的信息檢索。網(wǎng)絡爬蟲的
爬行效率直接影響著搜索引擎的檢索效果,爬行的規(guī)模越大,周期越短,查全
率就越高。另一方面,近年來隨著搜索引擎提供服務的多樣性,網(wǎng)絡成為人們
獲取新聞資訊的主要媒介之一,新聞熱點搜索等方面的中文短文本在線聚類和
語詞間語義層面的聚類需求越來越多。
本文主要針對搜索引擎中的網(wǎng)絡爬蟲和搜索結(jié)果的短文本聚類進行了研
究。在網(wǎng)絡爬蟲方面,為了提高爬蟲性能,主要是對爬蟲的核心模塊??頁面
解析模塊和去重模塊分別給出了相應的改進方法。
(1)對于爬蟲的頁面解析方法,本文改變了 Weblech 等開源爬蟲中所使用
的利用 HTML tag 標簽匹配抽取的方式,而是將半結(jié)構(gòu)化的文檔轉(zhuǎn)化為 XML,
進而表示成 DOM 文檔對象模型來抽取內(nèi)容,這種方式充分利用了結(jié)構(gòu)化信息
容易抽取的優(yōu)勢,同時也方便使用很多優(yōu)秀的讀寫 XML 的開源程序比如
DOM4J,JDOM 來改進程序的效率。
(2)爬蟲系統(tǒng)中如何高效去重是個較復雜的議題,傳統(tǒng)的概率算法 Bloom
Filter 在 URLs 去重上表現(xiàn)出了非常好的空間效率,但也伴隨著一定的誤判率,
且誤判率會隨著爬行規(guī)模的增大而提高。本文提出一種基于 Bloom Filter 的分
段哈希算法對爬蟲的 URLs 去重模塊進行了改進,在減小誤判率的基礎上提高
爬蟲性能。
通過對上述頁面解析和 URLs 去重改進方法的實
本文關鍵詞:搜索引擎中網(wǎng)絡爬蟲及結(jié)果聚類的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:109021
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/109021.html