基于改進(jìn)的Shark-Search算法的健康垂直搜索引擎的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-08-23 16:24
隨著近幾年經(jīng)濟(jì)飛速發(fā)展和人民生活水平的提高,健康問題也越來越受人們重視。而在使用當(dāng)前傳統(tǒng)搜索引擎搜索健康領(lǐng)域信息時(shí),搜索結(jié)果中往往存在大量的廣告信息,并且專業(yè)性、權(quán)威性較差。針對該問題,本課題基于改進(jìn)的Shark-Search算法實(shí)現(xiàn)了一個(gè)健康領(lǐng)域的垂直搜索引擎,課題主要工作如下:(1)對Shark-Search算法的不足進(jìn)行改進(jìn)。針對Shark-Search算法使用鏈接上下文計(jì)算導(dǎo)致噪音鏈接對主題鏈接判定產(chǎn)生負(fù)面影響的不足,將鏈接上下文改為使用網(wǎng)頁標(biāo)題來計(jì)算,其他計(jì)算因素不變;針對Shark-Search算法的“近視問題”,提出將Shark-Search算法與OPIC算法相結(jié)合。通過實(shí)驗(yàn)表明Shark-Search改進(jìn)算法較Shark-Search算法、OPIC算法、shark-PageRank算法在查準(zhǔn)率上分別提高了7.8%、14.1%、0.9%,在查全率(目標(biāo)召回率)上分別提高了 11.8%、17.7%、2.9%。(2)基于改進(jìn)的Shark-Search算法實(shí)現(xiàn)健康領(lǐng)域的爬蟲,并基于爬取的數(shù)據(jù)開發(fā)了一個(gè)健康領(lǐng)域的垂直搜索引擎。將本垂直搜索引擎與百度和必應(yīng)搜索對比測試,結(jié)果表明本垂...
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 課題研究現(xiàn)狀
1.3 課題主要研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 爬蟲的相關(guān)技術(shù)
2.1 主題爬蟲相關(guān)理論
2.1.1 通用爬蟲
2.1.2 主題爬蟲
2.2 爬蟲框架
2.2.1 Nutch爬蟲框架
2.2.2 Heritrix爬蟲框架
2.2.3 WebMagic爬蟲框架
2.3 中文分詞技術(shù)
2.3.1 基于詞典的分詞方法
2.3.2 基于統(tǒng)計(jì)的分詞方法
2.3.3 基于人工智能技術(shù)的分詞方法
2.4 URL去重
2.5 主題爬蟲的搜索策略
2.5.1 HITs算法
2.5.2 PageRank算法
2.5.3 OPIC算法
2.5.4 Shark-Search算法
2.6 主題判定模型
2.7 搜索引擎
2.7.1 搜索引擎的工作原理
2.7.2 搜索引擎服務(wù)器
2.8 本章小結(jié)
第3章 Shark-Search算法的改進(jìn)及實(shí)驗(yàn)結(jié)果分析
3.1 Shark-Search算法的缺點(diǎn)分析
3.2 Shark-Search算法與OPIC算法結(jié)合
3.3 實(shí)驗(yàn)環(huán)境
3.4 性能評價(jià)指標(biāo)
3.5 種子鏈接選取及主題特征向量的生成
3.5.1 種子鏈接選取
3.5.2 主題特征向量的生成
3.6 實(shí)驗(yàn)結(jié)果及分析
3.7 本章總結(jié)
第4章 健康垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
4.1 需求分析
4.1.1 功能需求分析
4.1.2 性能需求分析
4.2 搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
4.2.1 搜索引擎整體架構(gòu)設(shè)計(jì)
4.2.2 數(shù)據(jù)庫設(shè)計(jì)
4.2.3 中文分詞的實(shí)現(xiàn)
4.2.4 去重模塊的實(shí)現(xiàn)
4.2.5 索引模塊的實(shí)現(xiàn)
4.2.6 查詢模塊的實(shí)現(xiàn)
4.3 搜索引擎測試
4.4 本章總結(jié)
第5章 總結(jié)與期望
5.1 總結(jié)
5.2 期望
致謝
參考文獻(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(34)
[2]面向區(qū)域農(nóng)業(yè)信息的垂直搜索引擎研究[J]. 李果. 山西農(nóng)經(jīng). 2018(13)
[3]一種改進(jìn)的正向最大匹配算法[J]. 嚴(yán)良達(dá). 福建電腦. 2017(12)
[4]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠. 福建電腦. 2017(05)
[5]一種改進(jìn)Shark-Search的主題爬蟲算法[J]. 仇磊,婁淵勝,常民. 微型電腦應(yīng)用. 2017(02)
[6]中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響[J]. 馮佳捷,王瑞. 計(jì)算機(jī)光盤軟件與應(yīng)用. 2013(06)
[7]基于Shark-Search和Hits算法的主題爬蟲研究[J]. 羅林波,陳綺,吳清秀. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(11)
[8]一種改進(jìn)的長詞優(yōu)先逆向最大匹配分詞消歧策略[J]. 田占霄,韓憲忠,王克儉. 河北農(nóng)業(yè)大學(xué)學(xué)報(bào). 2009(04)
[9]基于Hash結(jié)構(gòu)的逆向最大匹配分詞算法的改進(jìn)[J]. 丁振國,張卓,黎靖. 計(jì)算機(jī)工程與設(shè)計(jì). 2008(12)
[10]基于詞典和詞頻的中文分詞方法[J]. 張恒,楊文昭,屈景輝,盧虹冰,張亮,趙飛. 微計(jì)算機(jī)信息. 2008(03)
博士論文
[1]面向垂直搜索引擎的主題爬行技術(shù)研究[D]. 陳竹敏.山東大學(xué) 2008
碩士論文
[1]基于Lucene的常用藥品垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 馮燕茹.西安電子科技大學(xué) 2019
[2]基于ElasticSearch面向M00C的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D]. 段晨迪.北京交通大學(xué) 2019
[3]主題搜索及其關(guān)鍵算法的研究[D]. 呂鑫.西安電子科技大學(xué) 2018
[4]基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 樊宇豪.電子科技大學(xué) 2018
[5]基于Lucene的蒙古文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 賈雪軍.內(nèi)蒙古大學(xué) 2018
[6]面向美食的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 杜明卉.吉林大學(xué) 2018
[7]基于改進(jìn)PageRank算法的醫(yī)學(xué)垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 周米雪.長安大學(xué) 2017
[8]基于Nutch和Solr的旅游信息垂直搜索引擎的研究和實(shí)現(xiàn)[D]. 陳桂賢.海南大學(xué) 2016
[9]面向工程技術(shù)的主題爬蟲的研究與實(shí)現(xiàn)[D]. 李歡.華中科技大學(xué) 2016
[10]主題爬蟲搜索策略及關(guān)鍵技術(shù)研究[D]. 徐寧.重慶大學(xué) 2015
本文編號:3678099
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 課題研究現(xiàn)狀
1.3 課題主要研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 爬蟲的相關(guān)技術(shù)
2.1 主題爬蟲相關(guān)理論
2.1.1 通用爬蟲
2.1.2 主題爬蟲
2.2 爬蟲框架
2.2.1 Nutch爬蟲框架
2.2.2 Heritrix爬蟲框架
2.2.3 WebMagic爬蟲框架
2.3 中文分詞技術(shù)
2.3.1 基于詞典的分詞方法
2.3.2 基于統(tǒng)計(jì)的分詞方法
2.3.3 基于人工智能技術(shù)的分詞方法
2.4 URL去重
2.5 主題爬蟲的搜索策略
2.5.1 HITs算法
2.5.2 PageRank算法
2.5.3 OPIC算法
2.5.4 Shark-Search算法
2.6 主題判定模型
2.7 搜索引擎
2.7.1 搜索引擎的工作原理
2.7.2 搜索引擎服務(wù)器
2.8 本章小結(jié)
第3章 Shark-Search算法的改進(jìn)及實(shí)驗(yàn)結(jié)果分析
3.1 Shark-Search算法的缺點(diǎn)分析
3.2 Shark-Search算法與OPIC算法結(jié)合
3.3 實(shí)驗(yàn)環(huán)境
3.4 性能評價(jià)指標(biāo)
3.5 種子鏈接選取及主題特征向量的生成
3.5.1 種子鏈接選取
3.5.2 主題特征向量的生成
3.6 實(shí)驗(yàn)結(jié)果及分析
3.7 本章總結(jié)
第4章 健康垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
4.1 需求分析
4.1.1 功能需求分析
4.1.2 性能需求分析
4.2 搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
4.2.1 搜索引擎整體架構(gòu)設(shè)計(jì)
4.2.2 數(shù)據(jù)庫設(shè)計(jì)
4.2.3 中文分詞的實(shí)現(xiàn)
4.2.4 去重模塊的實(shí)現(xiàn)
4.2.5 索引模塊的實(shí)現(xiàn)
4.2.6 查詢模塊的實(shí)現(xiàn)
4.3 搜索引擎測試
4.4 本章總結(jié)
第5章 總結(jié)與期望
5.1 總結(jié)
5.2 期望
致謝
參考文獻(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(34)
[2]面向區(qū)域農(nóng)業(yè)信息的垂直搜索引擎研究[J]. 李果. 山西農(nóng)經(jīng). 2018(13)
[3]一種改進(jìn)的正向最大匹配算法[J]. 嚴(yán)良達(dá). 福建電腦. 2017(12)
[4]基于N-gram模型的中文分詞算法的研究[J]. 丁潔,趙景惠. 福建電腦. 2017(05)
[5]一種改進(jìn)Shark-Search的主題爬蟲算法[J]. 仇磊,婁淵勝,常民. 微型電腦應(yīng)用. 2017(02)
[6]中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響[J]. 馮佳捷,王瑞. 計(jì)算機(jī)光盤軟件與應(yīng)用. 2013(06)
[7]基于Shark-Search和Hits算法的主題爬蟲研究[J]. 羅林波,陳綺,吳清秀. 計(jì)算機(jī)技術(shù)與發(fā)展. 2010(11)
[8]一種改進(jìn)的長詞優(yōu)先逆向最大匹配分詞消歧策略[J]. 田占霄,韓憲忠,王克儉. 河北農(nóng)業(yè)大學(xué)學(xué)報(bào). 2009(04)
[9]基于Hash結(jié)構(gòu)的逆向最大匹配分詞算法的改進(jìn)[J]. 丁振國,張卓,黎靖. 計(jì)算機(jī)工程與設(shè)計(jì). 2008(12)
[10]基于詞典和詞頻的中文分詞方法[J]. 張恒,楊文昭,屈景輝,盧虹冰,張亮,趙飛. 微計(jì)算機(jī)信息. 2008(03)
博士論文
[1]面向垂直搜索引擎的主題爬行技術(shù)研究[D]. 陳竹敏.山東大學(xué) 2008
碩士論文
[1]基于Lucene的常用藥品垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 馮燕茹.西安電子科技大學(xué) 2019
[2]基于ElasticSearch面向M00C的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[D]. 段晨迪.北京交通大學(xué) 2019
[3]主題搜索及其關(guān)鍵算法的研究[D]. 呂鑫.西安電子科技大學(xué) 2018
[4]基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 樊宇豪.電子科技大學(xué) 2018
[5]基于Lucene的蒙古文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 賈雪軍.內(nèi)蒙古大學(xué) 2018
[6]面向美食的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D]. 杜明卉.吉林大學(xué) 2018
[7]基于改進(jìn)PageRank算法的醫(yī)學(xué)垂直搜索引擎的研究與實(shí)現(xiàn)[D]. 周米雪.長安大學(xué) 2017
[8]基于Nutch和Solr的旅游信息垂直搜索引擎的研究和實(shí)現(xiàn)[D]. 陳桂賢.海南大學(xué) 2016
[9]面向工程技術(shù)的主題爬蟲的研究與實(shí)現(xiàn)[D]. 李歡.華中科技大學(xué) 2016
[10]主題爬蟲搜索策略及關(guān)鍵技術(shù)研究[D]. 徐寧.重慶大學(xué) 2015
本文編號:3678099
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3678099.html
最近更新
教材專著