基于URL及上下文的主題網(wǎng)絡(luò)爬蟲研究
本文關(guān)鍵詞:基于URL及上下文的主題網(wǎng)絡(luò)爬蟲研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計(jì)算機(jī)的發(fā)展,互聯(lián)網(wǎng)己經(jīng)成為世界上最大的信息資源庫,通用搜索引擎如百度瀏覽器、谷歌瀏覽器等可以通過關(guān)鍵詞查詢返回大量與關(guān)鍵詞相關(guān)的結(jié)果,能夠滿足大部分用戶的查詢需求。但是對于少數(shù)用戶,他們僅僅對某一個行業(yè)或領(lǐng)域的信息感興趣,所以他們希望搜索引擎僅僅返回自己感興趣的信息。為了獲得與某一個行業(yè)或者領(lǐng)域有關(guān)的信息,利用主題爬蟲算法對通用搜索引擎進(jìn)行改進(jìn)。 論文中應(yīng)用實(shí)體分析、網(wǎng)絡(luò)結(jié)構(gòu)分析并加以算法上的改進(jìn),提出了基于URL及上下文的主題爬蟲算法,本算法對主題進(jìn)行了實(shí)體分析,根據(jù)中文同義詞詞庫將主題描述詞進(jìn)行擴(kuò)展,作為主題相關(guān)度分析算法的輸入。同時本算法將網(wǎng)頁分成若干個信息塊,在網(wǎng)絡(luò)結(jié)構(gòu)與文本內(nèi)容兩個方面分析每個信息塊中的鏈接及本文內(nèi)容,根據(jù)信息塊中主題描述詞的詞頻和權(quán)重信息得出該鏈接在文本內(nèi)容方面的評分。如果評分大于設(shè)定的閾值,,則將該鏈接認(rèn)為是與主題相關(guān)的,否則與主題不相關(guān)。實(shí)驗(yàn)結(jié)果充分說明本論文提出的基于URL及上下文的主題爬蟲可以實(shí)現(xiàn)很好的搜索效果。 本文主要包括以下幾個研究內(nèi)容: 1.在查詢時,為了提高查詢速度使用高性能的全文檢索工具Lucene.Net,將網(wǎng)頁內(nèi)容中的鏈接、錨文本、上下文信息等內(nèi)容創(chuàng)建索引,實(shí)現(xiàn)索引搜索。創(chuàng)建索引雖然會消耗一定的時間,但是創(chuàng)建索引通常在后臺進(jìn)行,而且索引創(chuàng)建之后可以重復(fù)利用,具有一勞永逸的作用。 2.本文在實(shí)現(xiàn)中文分詞時,通過比較Lucene. Net提供的各種分詞方法和盤古中文分詞,最終選擇使用盤古分詞。為了實(shí)現(xiàn)良好的分詞效果,文中仔細(xì)研宄了最新版本的盤古分詞工具包與其它版本的差異性。 3.在計(jì)算主題相關(guān)度時,使用向量空間模型,計(jì)算余弦相似度結(jié)果作為相關(guān)度評分,如果評分大于設(shè)定的閾值則認(rèn)為是相關(guān)的,否則認(rèn)為是不相關(guān)的。
【關(guān)鍵詞】:搜索引擎 自然語言處理 中文分詞 信息檢索 向量空間模型
【學(xué)位授予單位】:上海師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要6-7
- Abstract7-9
- 目錄9-11
- 第一章 緒論11-22
- 1.1 研究目的與意義11-12
- 1.2 研究背景12-14
- 1.3 國內(nèi)外研究現(xiàn)狀14-20
- 1.3.1 關(guān)鍵詞搜索主題爬蟲14-16
- 1.3.2 網(wǎng)頁內(nèi)容分析主題爬蟲16-17
- 1.3.3 鏈接 URL 特征主題爬蟲17-20
- 1.4 論文的組織架構(gòu)20-22
- 第二章 Lucene.Net 的概述22-33
- 2.1 全文檢索基本原理22-24
- 2.1.1 索引23-24
- 2.1.2 全文檢索框架24
- 2.2 全文檢索相關(guān)理論24-26
- 2.2.1 正排索引25
- 2.2.2 倒排索引25-26
- 2.3 Lucene.Net26-29
- 2.3.1 創(chuàng)建索引26-28
- 2.3.2 索引查詢28-29
- 2.4 中文分詞29-32
- 2.4.1 根據(jù)詞典進(jìn)行分詞30
- 2.4.2 按照詞語的頻率進(jìn)行分詞30-31
- 2.4.3 根據(jù)理解進(jìn)行分詞31
- 2.4.4 分詞算法面對的挑戰(zhàn)31-32
- 2.5 本章小結(jié)32-33
- 第三章 基于 URL 及上下文的主題網(wǎng)絡(luò)爬蟲33-43
- 3.1 系統(tǒng)架構(gòu)與工作流程33-34
- 3.2 獲取網(wǎng)頁編碼和主題描述詞的擴(kuò)展34-37
- 3.2.1 獲取網(wǎng)頁編碼34-36
- 3.2.2 擴(kuò)展主題描述詞36-37
- 3.3 主題相關(guān)度計(jì)算37-42
- 3.3.1 基于分塊的多線程處理37-39
- 3.3.2 鏈接 URL 及上下文的分析39-42
- 3.4 本章小結(jié)42-43
- 第四章 實(shí)驗(yàn)過程及實(shí)驗(yàn)結(jié)果分析43-49
- 4.1 實(shí)驗(yàn)過程43-45
- 4.1.1 實(shí)現(xiàn)簡單的網(wǎng)絡(luò)爬蟲43-44
- 4.1.2 實(shí)現(xiàn)中文分詞44
- 4.1.3 主題網(wǎng)絡(luò)爬蟲44-45
- 4.2 實(shí)驗(yàn)結(jié)果45-48
- 4.2.1 實(shí)驗(yàn)環(huán)境45
- 4.2.2 實(shí)驗(yàn)結(jié)果45-48
- 4.3 本章小結(jié)48-49
- 第五章 總結(jié)與展望49-50
- 5.1 論文總結(jié)49
- 5.2 工作展望49-50
- 參考文獻(xiàn)50-53
- 致謝53
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設(shè)計(jì)[J];北京理工大學(xué)學(xué)報;2004年10期
2 劉紅芝;;中文分詞技術(shù)的研究[J];電腦開發(fā)與應(yīng)用;2010年03期
3 朱聰慧;趙鐵軍;鄭德權(quán);;基于無向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J];電子與信息學(xué)報;2010年03期
4 楊柳;;空間數(shù)據(jù)全文檢索方法研究[J];測繪工程;2012年06期
5 何國斌;趙晶璐;;基于最大匹配的中文分詞概率算法研究[J];計(jì)算機(jī)工程;2010年05期
6 白萬民;蘇希樂;;Heritrix在垂直搜索引擎中的應(yīng)用[J];計(jì)算機(jī)時代;2011年09期
7 汪濤,樊孝忠;主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2004年S1期
8 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期
9 陳一峰;趙恒凱;余小清;萬旺根;;基于遺傳算法的主題爬蟲策略改進(jìn)[J];計(jì)算機(jī)仿真;2010年10期
10 高偉鋒;;基于Heritrix的主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[J];南寧職業(yè)技術(shù)學(xué)院學(xué)報;2011年01期
本文關(guān)鍵詞:基于URL及上下文的主題網(wǎng)絡(luò)爬蟲研究,由筆耕文化傳播整理發(fā)布。
本文編號:341324
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/341324.html