搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類研究與實(shí)現(xiàn).pdf 全文
本文關(guān)鍵詞:搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
中國(guó)科學(xué)技術(shù)大學(xué)
碩士學(xué)位論文
搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實(shí)現(xiàn)
姓名:梁萍
申請(qǐng)學(xué)位級(jí)別:碩士
專業(yè):模式識(shí)別與智能系統(tǒng)
指導(dǎo)教師:帥建梅
2011-05-12摘 要
摘 要
隨著網(wǎng)絡(luò)科技和搜索技術(shù)的快速發(fā)展,人們生活中越來(lái)越多地通過互聯(lián)網(wǎng)
和搜索引擎來(lái)獲取各種信息。搜索引擎通過網(wǎng)絡(luò)爬蟲定期地從互聯(lián)網(wǎng)上抓取新
的網(wǎng)頁(yè),并為網(wǎng)頁(yè)內(nèi)容建立索引數(shù)據(jù)庫(kù),以方便后續(xù)的信息檢索。網(wǎng)絡(luò)爬蟲的
爬行效率直接影響著搜索引擎的檢索效果,爬行的規(guī)模越大,周期越短,查全
率就越高。另一方面,近年來(lái)隨著搜索引擎提供服務(wù)的多樣性,網(wǎng)絡(luò)成為人們
獲取新聞資訊的主要媒介之一,新聞熱點(diǎn)搜索等方面的中文短文本在線聚類和
語(yǔ)詞間語(yǔ)義層面的聚類需求越來(lái)越多。
本文主要針對(duì)搜索引擎中的網(wǎng)絡(luò)爬蟲和搜索結(jié)果的短文本聚類進(jìn)行了研
究。在網(wǎng)絡(luò)爬蟲方面,為了提高爬蟲性能,主要是對(duì)爬蟲的核心模塊??頁(yè)面
解析模塊和去重模塊分別給出了相應(yīng)的改進(jìn)方法。
(1)對(duì)于爬蟲的頁(yè)面解析方法,本文改變了 Weblech 等開源爬蟲中所使用
的利用 HTML tag 標(biāo)簽匹配抽取的方式,而是將半結(jié)構(gòu)化的文檔轉(zhuǎn)化為 XML,
進(jìn)而表示成 DOM 文檔對(duì)象模型來(lái)抽取內(nèi)容,這種方式充分利用了結(jié)構(gòu)化信息
容易抽取的優(yōu)勢(shì),同時(shí)也方便使用很多優(yōu)秀的讀寫 XML 的開源程序比如
DOM4J,JDOM 來(lái)改進(jìn)程序的效率。
(2)爬蟲系統(tǒng)中如何高效去重是個(gè)較復(fù)雜的議題,傳統(tǒng)的概率算法 Bloom
Filter 在 URLs 去重上表現(xiàn)出了非常好的空間效率,但也伴隨著一定的誤判率,
且誤判率會(huì)隨著爬行規(guī)模的增大而提高。本文提出一種基于 Bloom Filter 的分
段哈希算法對(duì)爬蟲的 URLs 去重模塊進(jìn)行了改進(jìn),在減小誤判率的基礎(chǔ)上提高
爬蟲性能。
通過對(duì)上述頁(yè)面解析和 URLs 去重改進(jìn)方法的實(shí)
本文關(guān)鍵詞:搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):109021
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/109021.html