基于改進的Shark-Search算法的健康垂直搜索引擎的研究與實現(xiàn)
發(fā)布時間:2022-08-23 16:24
隨著近幾年經(jīng)濟飛速發(fā)展和人民生活水平的提高,健康問題也越來越受人們重視。而在使用當(dāng)前傳統(tǒng)搜索引擎搜索健康領(lǐng)域信息時,搜索結(jié)果中往往存在大量的廣告信息,并且專業(yè)性、權(quán)威性較差。針對該問題,本課題基于改進的Shark-Search算法實現(xiàn)了一個健康領(lǐng)域的垂直搜索引擎,課題主要工作如下:(1)對Shark-Search算法的不足進行改進。針對Shark-Search算法使用鏈接上下文計算導(dǎo)致噪音鏈接對主題鏈接判定產(chǎn)生負面影響的不足,將鏈接上下文改為使用網(wǎng)頁標題來計算,其他計算因素不變;針對Shark-Search算法的“近視問題”,提出將Shark-Search算法與OPIC算法相結(jié)合。通過實驗表明Shark-Search改進算法較Shark-Search算法、OPIC算法、shark-PageRank算法在查準率上分別提高了7.8%、14.1%、0.9%,在查全率(目標召回率)上分別提高了 11.8%、17.7%、2.9%。(2)基于改進的Shark-Search算法實現(xiàn)健康領(lǐng)域的爬蟲,并基于爬取的數(shù)據(jù)開發(fā)了一個健康領(lǐng)域的垂直搜索引擎。將本垂直搜索引擎與百度和必應(yīng)搜索對比測試,結(jié)果表明本垂...
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 課題研究現(xiàn)狀
1.3 課題主要研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 爬蟲的相關(guān)技術(shù)
2.1 主題爬蟲相關(guān)理論
2.1.1 通用爬蟲
2.1.2 主題爬蟲
2.2 爬蟲框架
2.2.1 Nutch爬蟲框架
2.2.2 Heritrix爬蟲框架
2.2.3 WebMagic爬蟲框架
2.3 中文分詞技術(shù)
2.3.1 基于詞典的分詞方法
2.3.2 基于統(tǒng)計的分詞方法
2.3.3 基于人工智能技術(shù)的分詞方法
2.4 URL去重
2.5 主題爬蟲的搜索策略
2.5.1 HITs算法
2.5.2 PageRank算法
2.5.3 OPIC算法
2.5.4 Shark-Search算法
2.6 主題判定模型
2.7 搜索引擎
2.7.1 搜索引擎的工作原理
2.7.2 搜索引擎服務(wù)器
2.8 本章小結(jié)
第3章 Shark-Search算法的改進及實驗結(jié)果分析
3.1 Shark-Search算法的缺點分析
3.2 Shark-Search算法與OPIC算法結(jié)合
3.3 實驗環(huán)境
3.4 性能評價指標
3.5 種子鏈接選取及主題特征向量的生成
3.5.1 種子鏈接選取
3.5.2 主題特征向量的生成
3.6 實驗結(jié)果及分析
3.7 本章總結(jié)
第4章 健康垂直搜索引擎的設(shè)計與實現(xiàn)
4.1 需求分析
4.1.1 功能需求分析
4.1.2 性能需求分析
4.2 搜索引擎設(shè)計與實現(xiàn)
4.2.1 搜索引擎整體架構(gòu)設(shè)計
4.2.2 數(shù)據(jù)庫設(shè)計
4.2.3 中文分詞的實現(xiàn)
4.2.4 去重模塊的實現(xiàn)
4.2.5 索引模塊的實現(xiàn)
4.2.6 查詢模塊的實現(xiàn)
4.3 搜索引擎測試
4.4 本章總結(jié)
第5章 總結(jié)與期望
5.1 總結(jié)
5.2 期望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計算機(專業(yè)版). 2018(34)
[2]面向區(qū)域農(nóng)業(yè)信息的垂直搜索引擎研究[J]. 李果. 山西農(nóng)經(jīng). 2018(13)
[3]一種改進的正向最大匹配算法[J]. 嚴良達. 福建電腦. 2017(12)
[4]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠. 福建電腦. 2017(05)
[5]一種改進Shark-Search的主題爬蟲算法[J]. 仇磊,婁淵勝,常民. 微型電腦應(yīng)用. 2017(02)
[6]中文分詞技術(shù)對中文搜索引擎的查準率及查全率的影響[J]. 馮佳捷,王瑞. 計算機光盤軟件與應(yīng)用. 2013(06)
[7]基于Shark-Search和Hits算法的主題爬蟲研究[J]. 羅林波,陳綺,吳清秀. 計算機技術(shù)與發(fā)展. 2010(11)
[8]一種改進的長詞優(yōu)先逆向最大匹配分詞消歧策略[J]. 田占霄,韓憲忠,王克儉. 河北農(nóng)業(yè)大學(xué)學(xué)報. 2009(04)
[9]基于Hash結(jié)構(gòu)的逆向最大匹配分詞算法的改進[J]. 丁振國,張卓,黎靖. 計算機工程與設(shè)計. 2008(12)
[10]基于詞典和詞頻的中文分詞方法[J]. 張恒,楊文昭,屈景輝,盧虹冰,張亮,趙飛. 微計算機信息. 2008(03)
博士論文
[1]面向垂直搜索引擎的主題爬行技術(shù)研究[D]. 陳竹敏.山東大學(xué) 2008
碩士論文
[1]基于Lucene的常用藥品垂直搜索引擎的研究與實現(xiàn)[D]. 馮燕茹.西安電子科技大學(xué) 2019
[2]基于ElasticSearch面向M00C的垂直搜索引擎設(shè)計與實現(xiàn)[D]. 段晨迪.北京交通大學(xué) 2019
[3]主題搜索及其關(guān)鍵算法的研究[D]. 呂鑫.西安電子科技大學(xué) 2018
[4]基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計與實現(xiàn)[D]. 樊宇豪.電子科技大學(xué) 2018
[5]基于Lucene的蒙古文搜索引擎的設(shè)計與實現(xiàn)[D]. 賈雪軍.內(nèi)蒙古大學(xué) 2018
[6]面向美食的垂直搜索引擎的設(shè)計與實現(xiàn)[D]. 杜明卉.吉林大學(xué) 2018
[7]基于改進PageRank算法的醫(yī)學(xué)垂直搜索引擎的研究與實現(xiàn)[D]. 周米雪.長安大學(xué) 2017
[8]基于Nutch和Solr的旅游信息垂直搜索引擎的研究和實現(xiàn)[D]. 陳桂賢.海南大學(xué) 2016
[9]面向工程技術(shù)的主題爬蟲的研究與實現(xiàn)[D]. 李歡.華中科技大學(xué) 2016
[10]主題爬蟲搜索策略及關(guān)鍵技術(shù)研究[D]. 徐寧.重慶大學(xué) 2015
本文編號:3678099
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 課題研究現(xiàn)狀
1.3 課題主要研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 爬蟲的相關(guān)技術(shù)
2.1 主題爬蟲相關(guān)理論
2.1.1 通用爬蟲
2.1.2 主題爬蟲
2.2 爬蟲框架
2.2.1 Nutch爬蟲框架
2.2.2 Heritrix爬蟲框架
2.2.3 WebMagic爬蟲框架
2.3 中文分詞技術(shù)
2.3.1 基于詞典的分詞方法
2.3.2 基于統(tǒng)計的分詞方法
2.3.3 基于人工智能技術(shù)的分詞方法
2.4 URL去重
2.5 主題爬蟲的搜索策略
2.5.1 HITs算法
2.5.2 PageRank算法
2.5.3 OPIC算法
2.5.4 Shark-Search算法
2.6 主題判定模型
2.7 搜索引擎
2.7.1 搜索引擎的工作原理
2.7.2 搜索引擎服務(wù)器
2.8 本章小結(jié)
第3章 Shark-Search算法的改進及實驗結(jié)果分析
3.1 Shark-Search算法的缺點分析
3.2 Shark-Search算法與OPIC算法結(jié)合
3.3 實驗環(huán)境
3.4 性能評價指標
3.5 種子鏈接選取及主題特征向量的生成
3.5.1 種子鏈接選取
3.5.2 主題特征向量的生成
3.6 實驗結(jié)果及分析
3.7 本章總結(jié)
第4章 健康垂直搜索引擎的設(shè)計與實現(xiàn)
4.1 需求分析
4.1.1 功能需求分析
4.1.2 性能需求分析
4.2 搜索引擎設(shè)計與實現(xiàn)
4.2.1 搜索引擎整體架構(gòu)設(shè)計
4.2.2 數(shù)據(jù)庫設(shè)計
4.2.3 中文分詞的實現(xiàn)
4.2.4 去重模塊的實現(xiàn)
4.2.5 索引模塊的實現(xiàn)
4.2.6 查詢模塊的實現(xiàn)
4.3 搜索引擎測試
4.4 本章總結(jié)
第5章 總結(jié)與期望
5.1 總結(jié)
5.2 期望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計算機(專業(yè)版). 2018(34)
[2]面向區(qū)域農(nóng)業(yè)信息的垂直搜索引擎研究[J]. 李果. 山西農(nóng)經(jīng). 2018(13)
[3]一種改進的正向最大匹配算法[J]. 嚴良達. 福建電腦. 2017(12)
[4]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠. 福建電腦. 2017(05)
[5]一種改進Shark-Search的主題爬蟲算法[J]. 仇磊,婁淵勝,常民. 微型電腦應(yīng)用. 2017(02)
[6]中文分詞技術(shù)對中文搜索引擎的查準率及查全率的影響[J]. 馮佳捷,王瑞. 計算機光盤軟件與應(yīng)用. 2013(06)
[7]基于Shark-Search和Hits算法的主題爬蟲研究[J]. 羅林波,陳綺,吳清秀. 計算機技術(shù)與發(fā)展. 2010(11)
[8]一種改進的長詞優(yōu)先逆向最大匹配分詞消歧策略[J]. 田占霄,韓憲忠,王克儉. 河北農(nóng)業(yè)大學(xué)學(xué)報. 2009(04)
[9]基于Hash結(jié)構(gòu)的逆向最大匹配分詞算法的改進[J]. 丁振國,張卓,黎靖. 計算機工程與設(shè)計. 2008(12)
[10]基于詞典和詞頻的中文分詞方法[J]. 張恒,楊文昭,屈景輝,盧虹冰,張亮,趙飛. 微計算機信息. 2008(03)
博士論文
[1]面向垂直搜索引擎的主題爬行技術(shù)研究[D]. 陳竹敏.山東大學(xué) 2008
碩士論文
[1]基于Lucene的常用藥品垂直搜索引擎的研究與實現(xiàn)[D]. 馮燕茹.西安電子科技大學(xué) 2019
[2]基于ElasticSearch面向M00C的垂直搜索引擎設(shè)計與實現(xiàn)[D]. 段晨迪.北京交通大學(xué) 2019
[3]主題搜索及其關(guān)鍵算法的研究[D]. 呂鑫.西安電子科技大學(xué) 2018
[4]基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計與實現(xiàn)[D]. 樊宇豪.電子科技大學(xué) 2018
[5]基于Lucene的蒙古文搜索引擎的設(shè)計與實現(xiàn)[D]. 賈雪軍.內(nèi)蒙古大學(xué) 2018
[6]面向美食的垂直搜索引擎的設(shè)計與實現(xiàn)[D]. 杜明卉.吉林大學(xué) 2018
[7]基于改進PageRank算法的醫(yī)學(xué)垂直搜索引擎的研究與實現(xiàn)[D]. 周米雪.長安大學(xué) 2017
[8]基于Nutch和Solr的旅游信息垂直搜索引擎的研究和實現(xiàn)[D]. 陳桂賢.海南大學(xué) 2016
[9]面向工程技術(shù)的主題爬蟲的研究與實現(xiàn)[D]. 李歡.華中科技大學(xué) 2016
[10]主題爬蟲搜索策略及關(guān)鍵技術(shù)研究[D]. 徐寧.重慶大學(xué) 2015
本文編號:3678099
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3678099.html
最近更新
教材專著