基于主題的網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-04-02 22:03
本文關(guān)鍵詞:基于主題的網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:在因特網(wǎng)飛快發(fā)展的當(dāng)代,因特網(wǎng)上的信息像漫天的星宿不斷的發(fā)展、變化。搜索引擎也有所創(chuàng)新,不再成為固定的模式。無變化的搜索引擎會(huì)快速淘汰。由此,如何為用戶提供高質(zhì)量的、全面的、更新迅速的信息搜索平臺(tái)成為了不可忽視的問題。有的搜索引擎具有很大程度上的局限性。所有的web信息被有些引擎企圖索引。繼而要為所有的主題提供查詢請(qǐng)求。比較而說,提供主題搜索的引擎只會(huì)鎖定與特定主題密切聯(lián)系的web區(qū)域,所以通過主題搜索的使用可以使內(nèi)容更為深入。根據(jù)相應(yīng)的信息回饋,使用主題搜索可相應(yīng)縮短搜索周期。固主題搜索可以滿足用戶的搜索體驗(yàn)。根據(jù)主題進(jìn)行的搜索引擎如今成為了計(jì)算機(jī)科學(xué)和信息產(chǎn)業(yè)互相競(jìng)爭(zhēng)的領(lǐng)域。作者在設(shè)計(jì)角度與實(shí)現(xiàn)可能性出發(fā),對(duì)和搜索引擎有關(guān)聯(lián)的技術(shù)作了較為詳細(xì)的分析與討論,首先對(duì)搜索引擎今后的發(fā)展情況和現(xiàn)在全球的搜索引擎現(xiàn)狀進(jìn)行研究,然后在分析搜索引擎的工作原理,對(duì)其各部分主要功能進(jìn)行評(píng)估。對(duì)兩個(gè)為題進(jìn)行研究:網(wǎng)絡(luò)蜘蛛的搜索策略,頁面的主題關(guān)聯(lián)。對(duì)與主題相關(guān)的網(wǎng)絡(luò)蜘蛛的全面建立提出可行性建議。提出了網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)程序的相應(yīng)思路,從HTML頁面解析的概念著手,通過使用尊于搜索內(nèi)容評(píng)價(jià)的搜索策略,設(shè)計(jì)相關(guān)問題,得到設(shè)計(jì)出使中小型網(wǎng)站專業(yè)網(wǎng)頁的信息獲取都適用的網(wǎng)絡(luò)蜘蛛,提出此網(wǎng)絡(luò)蜘蛛的爬行算法繼而使用java語言達(dá)成體系。另外,本文還針對(duì)URL重復(fù)和動(dòng)態(tài)頁面內(nèi)容兩大難題給出了解決方案。
【關(guān)鍵詞】:主題搜索 網(wǎng)絡(luò)蜘蛛 相關(guān)度計(jì)算
【學(xué)位授予單位】:黑龍江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 中文摘要3-4
- ABSTRACT4-8
- 引言8-10
- 第1章 搜索引擎概述10-24
- 1.1 搜索引擎簡(jiǎn)介10-19
- 1.1.1 搜索引擎的誕生13
- 1.1.2 搜索引擎的分類13-14
- 1.1.3 搜索引擎的原理14-17
- 1.1.4 搜索引擎發(fā)展趨勢(shì)17-19
- 1.2 主題型搜索引擎概述19-22
- 1.2.1 產(chǎn)生背景19-21
- 1.2.2 主題型搜索引擎21-22
- 1.3 主題搜索的研究與發(fā)展現(xiàn)況22
- 1.4 網(wǎng)絡(luò)蜘蛛22-23
- 1.5 本文的主要工作23-24
- 第2章 主題蜘蛛技術(shù)概述24-32
- 2.1 網(wǎng)絡(luò)蜘蛛簡(jiǎn)介24-25
- 2.2 網(wǎng)絡(luò)蜘蛛關(guān)鍵技術(shù)25-26
- 2.3 主題蜘蛛的搜索策略26-28
- 2.3.1 基于內(nèi)容評(píng)價(jià)的搜索策略26-27
- 2.3.2 基于鏈接結(jié)構(gòu)評(píng)價(jià)的搜索策略27-28
- 2.4 主題相關(guān)度計(jì)算28-30
- 2.4.1 HTML鏈接標(biāo)簽29
- 2.4.2 本文的主題相關(guān)度計(jì)算方法29-30
- 2.5 初始URL的選擇30-31
- 2.5.1 Web主題關(guān)聯(lián)模型30-31
- 2.5.2 初始URL的選擇方法31
- 2.6 本章小結(jié)31-32
- 第3章 頁面正文提取與中文分詞32-40
- 3.1 頁面正文提取技術(shù)32-37
- 3.1.1 HTML簡(jiǎn)介32-33
- 3.1.2 HTML文檔標(biāo)準(zhǔn)化33-34
- 3.1.3 構(gòu)造標(biāo)簽樹34
- 3.1.4 HTML內(nèi)容分塊技術(shù)34-35
- 3.1.5 正文塊提取35-36
- 3.1.6 正則表達(dá)式36-37
- 3.2 中文分詞簡(jiǎn)介37-39
- 3.2.1 中文分詞常用算法38-39
- 3.3 本章小結(jié)39-40
- 第4章 基于主題的蜘蛛設(shè)計(jì)與實(shí)現(xiàn)40-60
- 4.1 數(shù)據(jù)庫主要表設(shè)計(jì)40-42
- 4.1.1 Link表40-41
- 4.1.2 Topic表41
- 4.1.3 Document表41-42
- 4.2 架構(gòu)設(shè)計(jì)42-43
- 4.3 作業(yè)管理器43-44
- 4.4 線程管理器44-48
- 4.4.1 多線程技術(shù)44-46
- 4.4.2 線程管理器46-48
- 4.5 Spider類的實(shí)現(xiàn)48-50
- 4.6 重復(fù)檢測(cè)技術(shù)實(shí)現(xiàn)50-51
- 4.7 中文分詞技術(shù)實(shí)現(xiàn)51-57
- 4.7.1 詞典結(jié)構(gòu)設(shè)計(jì)52-53
- 4.7.2 構(gòu)建詞典53-54
- 4.7.3 切詞實(shí)現(xiàn)54-57
- 4.8 動(dòng)態(tài)網(wǎng)頁內(nèi)容獲得技術(shù)實(shí)現(xiàn)57-58
- 4.9 實(shí)驗(yàn)效果58-59
- 4.10 本章小結(jié)59-60
- 第5章 主題蜘蛛性能分析60-62
- 5.1 主題蜘蛛的性能分析60-61
- 5.2 本章小結(jié)61-62
- 第6章 主題詞典62-65
- 6.1 主題詞典的建立62-63
- 6.2 主題詞典的維護(hù)63-64
- 6.3 本章小結(jié)64-65
- 結(jié)論65-66
- 參考文獻(xiàn)66-69
- 致謝69
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 于俊洋;李俊;;基于C#的網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)和實(shí)現(xiàn)[J];中國教育信息化;2008年21期
2 陳瑜芳;何克右;;網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年11期
3 包桂燕;;網(wǎng)絡(luò)蜘蛛搜索策略評(píng)價(jià)[J];民營科技;2010年04期
4 潘欣;呂靜波;張素莉;;基于網(wǎng)絡(luò)蜘蛛的新詞自動(dòng)發(fā)現(xiàn)算法研究[J];長春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年03期
5 李浩;蔣,
本文編號(hào):283204
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/283204.html
最近更新
教材專著