WEB信息資源主題搜索技術(shù)研究
發(fā)布時(shí)間:2017-10-01 14:34
本文關(guān)鍵詞:WEB信息資源主題搜索技術(shù)研究
更多相關(guān)文章: 主題搜索 網(wǎng)絡(luò)爬蟲 主題判定 網(wǎng)頁去重 中文分詞
【摘要】:隨著網(wǎng)絡(luò)技術(shù)的發(fā)展、Web3.0時(shí)代的到來以及信息需求的變化,通用搜索引擎的缺點(diǎn)表現(xiàn)得越來越明顯;ヂ(lián)網(wǎng)上每天都有海量信息生成、共享和更新,而目前通用搜索引擎更新的時(shí)間相對較久,不能滿足人們?nèi)找嬖鲩L的個(gè)性化服務(wù)的需要,,主題搜索技術(shù)的出現(xiàn)將很好地解決這一問題。 本文對通用搜索引擎的出現(xiàn)、發(fā)展以及搜索引擎的基本知識、技術(shù)進(jìn)行了研究,并系統(tǒng)的分析了搜索引擎的系統(tǒng)結(jié)構(gòu)、關(guān)鍵技術(shù);在此基礎(chǔ)上對通用搜索引擎與主題搜索引擎的關(guān)鍵技術(shù)進(jìn)行了重點(diǎn)研究、對比,并對主題搜索引擎中的關(guān)鍵技術(shù)進(jìn)行了剖析。 在上述研究的基礎(chǔ)上,本文在Nutch開源軟件的基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了垂直搜索引擎的各個(gè)模塊,主要就主題判定、網(wǎng)頁去重、中文分詞等模塊進(jìn)行了算法的設(shè)計(jì)與改進(jìn),使得垂直搜索引擎的準(zhǔn)確率、召回率和效率都遠(yuǎn)遠(yuǎn)高于通用搜索引擎。主要工作包括: 1)就目前比較成熟的網(wǎng)絡(luò)爬蟲策略算法的PageRank、HITS、Partial PageRank進(jìn)行了研究,針對現(xiàn)存的問題提出了新的爬取策略IPR(Improved PageRank)算法,可以實(shí)現(xiàn)主題信息的重點(diǎn)提取與保存。 2)各式各樣的網(wǎng)站層出不窮,相同的內(nèi)容可能被幾個(gè)網(wǎng)站同時(shí)報(bào)道、登錄,這將造成網(wǎng)頁的重復(fù)爬取與存取,所以網(wǎng)頁的去重是本文研究的重點(diǎn)之一,主要就網(wǎng)頁信息的提取、網(wǎng)頁相似度的對比判定進(jìn)行了研究改進(jìn),降低存儲網(wǎng)頁的重復(fù)率。 3)中文分詞是中文搜索引擎的關(guān)鍵技術(shù)之一,好的中文分詞是搜索引擎高召回率、高效率的保障,本文在最大匹配算法的基礎(chǔ)上提出了IMMM算法,配合主題搜索引擎很好的提高了分詞準(zhǔn)確率。
【關(guān)鍵詞】:主題搜索 網(wǎng)絡(luò)爬蟲 主題判定 網(wǎng)頁去重 中文分詞
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 緒論8-14
- 1.1 課題研究背景8-9
- 1.2 主題搜索的國內(nèi)外研究現(xiàn)狀9-10
- 1.3 論文的主要研究內(nèi)容10-12
- 1.4 論文章節(jié)安排12-14
- 第二章 搜索引擎技術(shù)概述14-28
- 2.1 搜索引擎的出現(xiàn)及其發(fā)展14-15
- 2.2 搜索引擎的 4 大需求15-16
- 2.3 搜索引擎的 4 大體系16-22
- 2.3.1 下載系統(tǒng)16-18
- 2.3.2 分析系統(tǒng)18-20
- 2.3.3 索引系統(tǒng)20-21
- 2.3.4 查詢系統(tǒng)21-22
- 2.4 主題搜索引擎的出現(xiàn)22-26
- 2.4.1 主題搜索引擎與通用搜索引擎的區(qū)別23-25
- 2.4.2 主題搜索引擎的優(yōu)勢25-26
- 2.5 本章小結(jié)26-28
- 第三章 主題搜索主要技術(shù)剖析28-36
- 3.1 主題相關(guān)性判斷28-31
- 3.1.1 主題相關(guān)性28-29
- 3.1.2 主題相關(guān)性算法29-31
- 3.2 網(wǎng)頁去重問題31-32
- 3.2.1 網(wǎng)頁去重策略31
- 3.2.2 網(wǎng)頁重復(fù)判斷算法31-32
- 3.3 中文分詞32-35
- 3.3.1 中文分詞的應(yīng)用32-33
- 3.3.2 中文分詞的分類33-35
- 3.4 本章小結(jié)35-36
- 第四章 主題搜索系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)36-56
- 4.1 Nutch 介紹36-38
- 4.1.1 Nutch 體系結(jié)構(gòu)36-37
- 4.1.2 Nutch 工作流程37-38
- 4.2 主題搜索設(shè)計(jì)框架38-39
- 4.3 主題爬蟲模塊的設(shè)計(jì)與實(shí)現(xiàn)39-43
- 4.3.1 主題相關(guān)度判斷40-41
- 4.3.2 爬蟲鏈接更新策略41-43
- 4.4 網(wǎng)頁去重模塊的設(shè)計(jì)與實(shí)現(xiàn)43-50
- 4.4.1 屬性信息的提取45-48
- 4.4.2 網(wǎng)頁重復(fù)度計(jì)算48-50
- 4.5 中文分詞模塊的設(shè)計(jì)與實(shí)現(xiàn)50-54
- 4.5.1 中文分詞算法設(shè)計(jì)50-53
- 4.5.2 中文分詞模塊實(shí)現(xiàn)53-54
- 4.6 本章小結(jié)54-56
- 第五章 主題搜索系統(tǒng)測試56-60
- 5.1 測試系統(tǒng)環(huán)境56
- 5.2 測試系統(tǒng)部署56
- 5.3 系統(tǒng)主要模塊測試與分析56-59
- 5.4 本章小結(jié)59-60
- 第六章 總結(jié)與展望60-62
- 6.1 本文總結(jié)60-61
- 6.2 展望61-62
- 參考文獻(xiàn)62-66
- 攻讀學(xué)位期間所取得的相關(guān)科研成果66-68
- 致謝68
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 錢揖麗,鄭家恒;文本切分知識獲取及其應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2003年02期
2 付年鈞;彭昌水;王慰;;中文分詞技術(shù)及其實(shí)現(xiàn)[J];軟件導(dǎo)刊;2011年01期
3 陳軍;陳竹敏;;基于網(wǎng)頁分塊的Shark-Search算法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2007年09期
4 邵秀麗;劉彬;張濤;;基于Nutch的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年02期
5 聞?dòng)癖?賈時(shí)銀;鄧世昆;李遠(yuǎn)方;;一種改進(jìn)的最大匹配中文分詞算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年10期
本文編號:954040
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/954040.html
最近更新
教材專著