基于關(guān)鍵詞的搜索引擎網(wǎng)頁去重算法研究
發(fā)布時(shí)間:2020-12-27 21:40
互聯(lián)網(wǎng)的飛速發(fā)展使得互聯(lián)網(wǎng)的數(shù)據(jù)得到了指數(shù)級(jí)增長(zhǎng)。與報(bào)紙、電視和廣播這些傳統(tǒng)的傳輸媒體相比,互聯(lián)網(wǎng)更加高效實(shí)時(shí)、經(jīng)濟(jì)直觀,并極具開放性,是新一代的大眾傳媒。互聯(lián)網(wǎng)上的信息紛繁復(fù)雜,并存在大量的相似重復(fù)網(wǎng)頁信息。這些相似重復(fù)網(wǎng)頁信息不但給網(wǎng)絡(luò)用戶帶來了相當(dāng)大的困擾,增加了搜索目標(biāo)信息的難度;也降低了競(jìng)爭(zhēng)情報(bào)系統(tǒng)和搜索引擎的網(wǎng)頁信息采集分析工作的效率。因此,關(guān)于相似重復(fù)網(wǎng)頁去重技術(shù)的研究是一個(gè)極具實(shí)際意義的研究課題。本文在分析了當(dāng)前相似網(wǎng)頁去重技術(shù)的基礎(chǔ)上,詳細(xì)闡述了網(wǎng)頁去重技術(shù)的整體流程,包括網(wǎng)頁預(yù)處理、網(wǎng)頁特征提取和相似性判斷等,網(wǎng)頁預(yù)處理包括網(wǎng)頁格式正規(guī)化處理和網(wǎng)頁主題內(nèi)容提取。提取網(wǎng)頁主題內(nèi)容需先構(gòu)建DOM文檔結(jié)構(gòu)樹,然后去除圖片、表單和網(wǎng)頁腳本等噪聲節(jié)點(diǎn),最后定位候選子樹節(jié)點(diǎn)和進(jìn)行噪聲指數(shù)計(jì)算。在相似網(wǎng)頁去重算法上,以SimHash算法為基礎(chǔ)進(jìn)行適當(dāng)?shù)母倪M(jìn),為更準(zhǔn)確地表征網(wǎng)頁主題內(nèi)容,在進(jìn)行網(wǎng)頁分詞和去除停用詞與無意義詞后,采用單步前進(jìn)制的單詞序列作為網(wǎng)頁特征項(xiàng),融入了單詞與單詞的相互位置關(guān)系。為降低算法的時(shí)間空間復(fù)雜度,在進(jìn)行網(wǎng)頁特征項(xiàng)的權(quán)重計(jì)算的同時(shí),提取出適當(dāng)數(shù)量的網(wǎng)頁關(guān)鍵...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
3訓(xùn)練得到詞典
MASTTR'S?THESIS??本文的網(wǎng)頁去重算法實(shí)現(xiàn)方案是建立在在圖5.2的架構(gòu)設(shè)想基礎(chǔ)上的,即采取??個(gè)開源的搜索引擎,并對(duì)此捜索引擎中的網(wǎng)頁數(shù)據(jù)去重模塊應(yīng)用上章內(nèi)容描述的??似網(wǎng)頁去重算法加W改進(jìn)。Nutch是一個(gè)Java實(shí)現(xiàn)的開源的捜索引擎,提供了網(wǎng)??爬蟲、全文檢索和分布式存儲(chǔ)等諸多工具,在本文中我們將基于N山址對(duì)網(wǎng)頁去??算法進(jìn)行驗(yàn)證。??5.1實(shí)驗(yàn)環(huán)境??Nut沈是Apache基金會(huì)下的一個(gè)基于Java實(shí)現(xiàn)的開源的搜索引擎,是一個(gè)髙??可擴(kuò)展的開源網(wǎng)絡(luò)爬蟲軟件項(xiàng)目。它致力于減少軟件開發(fā)者的王作量,使其能在??短的時(shí)間內(nèi)完成Web搜索引擎的開發(fā)王作。Nutch下有一系列的工具和模塊,提??了一系列比較完整的捜索引擎實(shí)現(xiàn)。開發(fā)人員只需在己有的工具和模塊基礎(chǔ)上進(jìn)??適當(dāng)?shù)男薷模湍芸焖俚亻_發(fā)出高效穩(wěn)定的搜索引擎系統(tǒng)。N山ch各個(gè)模塊之間的??系如圖5.3所示。??
_==_====??Nutch對(duì)插件機(jī)制的支持非常友好I其大部分的擴(kuò)展功能都是通過插件機(jī)制實(shí)??現(xiàn)的,包括網(wǎng)頁分詞、網(wǎng)頁頁面分析、頁面評(píng)分和url地址過濾等搜索引擎的核屯、??功能。一個(gè)完整的插件包含代碼文件和配置文件兩個(gè)部分。代碼文件負(fù)責(zé)插件邏輯??業(yè)務(wù)功能的具體實(shí)現(xiàn);配置文件用于處理插件本身屬性和各插件及系統(tǒng)之間的交互??關(guān)系。插件機(jī)制有如下優(yōu)點(diǎn)??1、可擴(kuò)展能力(Extensibility)??2、靈活性(Fex批lity)??3、可維護(hù)性(Maintainability)??Nutch的插件體系結(jié)構(gòu)從上到下共包括H個(gè)層次:上層是微內(nèi)核、擴(kuò)展點(diǎn)與擴(kuò)展,??微內(nèi)核負(fù)責(zé)統(tǒng)一調(diào)度,擴(kuò)展點(diǎn)則對(duì)相應(yīng)的功能進(jìn)行聲明,功能的具體實(shí)現(xiàn)由擴(kuò)展完??成;中間層次包括H個(gè)部分,分別是插件、插件描述清單W及插件清單描述器,主要??完成對(duì)擴(kuò)展W及其所需資源的統(tǒng)一管理;底層由插件工廠和插件清單解析器構(gòu)成,??主要功能是負(fù)責(zé)插件的注冊(cè)過程及取得擴(kuò)展點(diǎn)的功能。Nutch插件系統(tǒng)結(jié)構(gòu)如圖??5.4所示。??
【參考文獻(xiàn)】:
期刊論文
[1]Asp.net中偽靜態(tài)的應(yīng)用與實(shí)現(xiàn)[J]. 侯鵬. 電腦知識(shí)與技術(shù). 2013(34)
[2]網(wǎng)頁凈化及去重研究綜述[J]. 羅元. 現(xiàn)代計(jì)算機(jī). 2013(15)
[3]一種結(jié)合正向最大匹配法和互信息的中文分詞算法[J]. 桑書娟,王慶喜. 計(jì)算機(jī)光盤軟件與應(yīng)用. 2012(07)
[4]基于多SimHash指紋的近似文本檢測(cè)[J]. 董博,鄭慶華,宋凱磊,田鋒,馬瑞. 小型微型計(jì)算機(jī)系統(tǒng). 2011(11)
[5]用于網(wǎng)頁相關(guān)性判斷的聚焦查詢文摘算法研究[J]. 蔣效宇. 計(jì)算機(jī)工程與應(yīng)用. 2011(33)
[6]國(guó)內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J]. 李志義,梁士金. 圖書情報(bào)工作. 2011(07)
[7]基于Bloom Filter的網(wǎng)頁去重算法[J]. 徐娜,劉四維,汪翔,倪衛(wèi)明. 微型電腦應(yīng)用. 2011(03)
[8]基于SLCS的元搜索去重技術(shù)研究[J]. 秦杰,謝蕙,王春云. 圖書情報(bào)工作. 2010(15)
[9]Nutch的插件機(jī)制分析[J]. 夏天. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(01)
[10]基于詞匯鏈的中文新聞網(wǎng)頁關(guān)鍵詞抽取方法[J]. 胡學(xué)鋼,李星華,謝飛,吳信東. 模式識(shí)別與人工智能. 2010(01)
碩士論文
[1]科技情報(bào)采集系統(tǒng)的設(shè)計(jì)及其快速文本聚類方法研究[D]. 宋辰.北京工業(yè)大學(xué) 2014
[2]網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D]. 衣波.廣東工業(yè)大學(xué) 2013
[3]移動(dòng)終端通訊錄數(shù)據(jù)去重合并關(guān)鍵技術(shù)研究[D]. 吳朋朋.北京郵電大學(xué) 2014
[4]主題搜索引擎的研究與應(yīng)用[D]. 黃波.成都理工大學(xué) 2007
[5]基于本體的面向股票領(lǐng)域搜索引擎的實(shí)現(xiàn)技術(shù)研究[D]. 黃堃.天津大學(xué) 2007
本文編號(hào):2942532
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
3訓(xùn)練得到詞典
MASTTR'S?THESIS??本文的網(wǎng)頁去重算法實(shí)現(xiàn)方案是建立在在圖5.2的架構(gòu)設(shè)想基礎(chǔ)上的,即采取??個(gè)開源的搜索引擎,并對(duì)此捜索引擎中的網(wǎng)頁數(shù)據(jù)去重模塊應(yīng)用上章內(nèi)容描述的??似網(wǎng)頁去重算法加W改進(jìn)。Nutch是一個(gè)Java實(shí)現(xiàn)的開源的捜索引擎,提供了網(wǎng)??爬蟲、全文檢索和分布式存儲(chǔ)等諸多工具,在本文中我們將基于N山址對(duì)網(wǎng)頁去??算法進(jìn)行驗(yàn)證。??5.1實(shí)驗(yàn)環(huán)境??Nut沈是Apache基金會(huì)下的一個(gè)基于Java實(shí)現(xiàn)的開源的搜索引擎,是一個(gè)髙??可擴(kuò)展的開源網(wǎng)絡(luò)爬蟲軟件項(xiàng)目。它致力于減少軟件開發(fā)者的王作量,使其能在??短的時(shí)間內(nèi)完成Web搜索引擎的開發(fā)王作。Nutch下有一系列的工具和模塊,提??了一系列比較完整的捜索引擎實(shí)現(xiàn)。開發(fā)人員只需在己有的工具和模塊基礎(chǔ)上進(jìn)??適當(dāng)?shù)男薷模湍芸焖俚亻_發(fā)出高效穩(wěn)定的搜索引擎系統(tǒng)。N山ch各個(gè)模塊之間的??系如圖5.3所示。??
_==_====??Nutch對(duì)插件機(jī)制的支持非常友好I其大部分的擴(kuò)展功能都是通過插件機(jī)制實(shí)??現(xiàn)的,包括網(wǎng)頁分詞、網(wǎng)頁頁面分析、頁面評(píng)分和url地址過濾等搜索引擎的核屯、??功能。一個(gè)完整的插件包含代碼文件和配置文件兩個(gè)部分。代碼文件負(fù)責(zé)插件邏輯??業(yè)務(wù)功能的具體實(shí)現(xiàn);配置文件用于處理插件本身屬性和各插件及系統(tǒng)之間的交互??關(guān)系。插件機(jī)制有如下優(yōu)點(diǎn)??1、可擴(kuò)展能力(Extensibility)??2、靈活性(Fex批lity)??3、可維護(hù)性(Maintainability)??Nutch的插件體系結(jié)構(gòu)從上到下共包括H個(gè)層次:上層是微內(nèi)核、擴(kuò)展點(diǎn)與擴(kuò)展,??微內(nèi)核負(fù)責(zé)統(tǒng)一調(diào)度,擴(kuò)展點(diǎn)則對(duì)相應(yīng)的功能進(jìn)行聲明,功能的具體實(shí)現(xiàn)由擴(kuò)展完??成;中間層次包括H個(gè)部分,分別是插件、插件描述清單W及插件清單描述器,主要??完成對(duì)擴(kuò)展W及其所需資源的統(tǒng)一管理;底層由插件工廠和插件清單解析器構(gòu)成,??主要功能是負(fù)責(zé)插件的注冊(cè)過程及取得擴(kuò)展點(diǎn)的功能。Nutch插件系統(tǒng)結(jié)構(gòu)如圖??5.4所示。??
【參考文獻(xiàn)】:
期刊論文
[1]Asp.net中偽靜態(tài)的應(yīng)用與實(shí)現(xiàn)[J]. 侯鵬. 電腦知識(shí)與技術(shù). 2013(34)
[2]網(wǎng)頁凈化及去重研究綜述[J]. 羅元. 現(xiàn)代計(jì)算機(jī). 2013(15)
[3]一種結(jié)合正向最大匹配法和互信息的中文分詞算法[J]. 桑書娟,王慶喜. 計(jì)算機(jī)光盤軟件與應(yīng)用. 2012(07)
[4]基于多SimHash指紋的近似文本檢測(cè)[J]. 董博,鄭慶華,宋凱磊,田鋒,馬瑞. 小型微型計(jì)算機(jī)系統(tǒng). 2011(11)
[5]用于網(wǎng)頁相關(guān)性判斷的聚焦查詢文摘算法研究[J]. 蔣效宇. 計(jì)算機(jī)工程與應(yīng)用. 2011(33)
[6]國(guó)內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J]. 李志義,梁士金. 圖書情報(bào)工作. 2011(07)
[7]基于Bloom Filter的網(wǎng)頁去重算法[J]. 徐娜,劉四維,汪翔,倪衛(wèi)明. 微型電腦應(yīng)用. 2011(03)
[8]基于SLCS的元搜索去重技術(shù)研究[J]. 秦杰,謝蕙,王春云. 圖書情報(bào)工作. 2010(15)
[9]Nutch的插件機(jī)制分析[J]. 夏天. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(01)
[10]基于詞匯鏈的中文新聞網(wǎng)頁關(guān)鍵詞抽取方法[J]. 胡學(xué)鋼,李星華,謝飛,吳信東. 模式識(shí)別與人工智能. 2010(01)
碩士論文
[1]科技情報(bào)采集系統(tǒng)的設(shè)計(jì)及其快速文本聚類方法研究[D]. 宋辰.北京工業(yè)大學(xué) 2014
[2]網(wǎng)絡(luò)輿情信息的話題發(fā)現(xiàn)和追蹤技術(shù)的研究與應(yīng)用[D]. 衣波.廣東工業(yè)大學(xué) 2013
[3]移動(dòng)終端通訊錄數(shù)據(jù)去重合并關(guān)鍵技術(shù)研究[D]. 吳朋朋.北京郵電大學(xué) 2014
[4]主題搜索引擎的研究與應(yīng)用[D]. 黃波.成都理工大學(xué) 2007
[5]基于本體的面向股票領(lǐng)域搜索引擎的實(shí)現(xiàn)技術(shù)研究[D]. 黃堃.天津大學(xué) 2007
本文編號(hào):2942532
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2942532.html
最近更新
教材專著