稅務(wù)垂直搜索引擎及改進(jìn)PageRank算法的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-06-01 20:25
稅務(wù)領(lǐng)域業(yè)務(wù)背景復(fù)雜,辦稅系統(tǒng)層級(jí)較深不便記憶和查找、信息政策多樣導(dǎo)致信息檢索不便;現(xiàn)有通用搜索引擎搜索結(jié)果數(shù)量多、查準(zhǔn)率低、權(quán)威性不足,且存在競價(jià)排名和網(wǎng)頁作弊的現(xiàn)象;網(wǎng)頁排序算法PageRank存在主題漂移、偏重舊網(wǎng)頁和權(quán)威性不足的問題,且由于只對(duì)鏈接打分,不能對(duì)網(wǎng)頁內(nèi)容做出評(píng)價(jià)。針對(duì)以上問題提出一種基于改進(jìn)PageRank算法的稅務(wù)垂直搜索引擎。目標(biāo)是提供具有主題性和權(quán)威性的稅務(wù)搜索,在準(zhǔn)確理解用戶搜索意圖的基礎(chǔ)上實(shí)現(xiàn)精準(zhǔn)查詢,提供方便快捷的辦稅模塊入口以及信息檢索功能。本文的主要工作包括:(1)研究與改進(jìn)網(wǎng)頁排序算法。研究PageRank和HITS算法的原理,比較兩者的優(yōu)勢與不足后選擇PageRank算法作為基礎(chǔ),在三方面進(jìn)行了改進(jìn):針對(duì)網(wǎng)站權(quán)威性不足引入權(quán)威度因子;針對(duì)新網(wǎng)頁的評(píng)分浮不上來的特征融入時(shí)間評(píng)估因子;針對(duì)主題漂移問題融入了基于空間向量模型的網(wǎng)頁內(nèi)容相關(guān)度計(jì)算方法。實(shí)驗(yàn)表明改進(jìn)算法能有效改善主題漂移問題、提升網(wǎng)頁新鮮度和權(quán)威性。(2)中文分詞的研究與實(shí)現(xiàn)。綜合考慮編程語言、集成難度、功能豐富性、詞庫是否可擴(kuò)展等方面后,選取Ictclas中文分詞器輔助網(wǎng)頁內(nèi)容以及搜索...
【文章來源】:上海市計(jì)算技術(shù)研究所上海市
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 垂直搜索引擎研究現(xiàn)狀
1.3 論文研究內(nèi)容
1.4 論文結(jié)構(gòu)安排
1.5 本章小結(jié)
2 搜索引擎關(guān)鍵技術(shù)研究
2.1 搜索引擎概念及原理
2.1.1 垂直搜索引擎與通用搜索引擎的區(qū)別
2.1.2 垂直搜索引擎工作原理
2.2 爬蟲的原理
2.2.1 通用網(wǎng)絡(luò)爬蟲與主題爬蟲的區(qū)別
2.2.2 資源類型
2.2.3 抓取策略
2.3 中文分詞
2.3.1 分詞策略
2.3.2 分詞工具對(duì)比
2.4 Nutch概述
2.5 Solr概述
2.6 本章小結(jié)
3 網(wǎng)頁排序算法的研究與改進(jìn)
3.1 PageRank算法
3.1.1 算法解析
3.1.2 收斂性實(shí)驗(yàn)
3.1.3 算法評(píng)價(jià)
3.2 HITS算法
3.2.1 算法解析
3.2.2 算法評(píng)價(jià)
3.3 改進(jìn)算法——VSPR
3.3.1 基礎(chǔ)算法選取
3.3.2 網(wǎng)站權(quán)威度改進(jìn)
3.3.3 網(wǎng)站新鮮度改進(jìn)
3.3.4 主題相關(guān)度改進(jìn)
3.4 本章小結(jié)
4 面向稅務(wù)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
4.1 需求分析
4.2 架構(gòu)設(shè)計(jì)
4.3 稅務(wù)垂直搜索引擎的實(shí)現(xiàn)
4.3.1 信息抓取模塊
4.3.2 中文分詞模塊
4.3.3 用戶搜索模塊
4.4 算法驗(yàn)證
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 實(shí)驗(yàn)步驟及結(jié)果
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)爬蟲技術(shù)原理[J]. Kevin. 計(jì)算機(jī)與網(wǎng)絡(luò). 2018(10)
[2]開源搜索引擎Elasticsearch和Solr對(duì)比和分析[J]. 魏濤,孟方園,袁平,殷鋒. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(06)
[3]微博環(huán)境下基于用戶行為與主題相似度的改進(jìn)PageRank算法[J]. 朱顥東,丁溫雪,楊立志,馮嘉美. 計(jì)算機(jī)工程. 2017(05)
[4]網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[J]. 朱莉娜,李澤平. 黑龍江科技信息. 2017(10)
[5]PageRank算法改進(jìn)研究[J]. 邱苓蕓,王銘,趙衛(wèi)東. 軟件導(dǎo)刊. 2017(02)
[6]基于用戶反饋與鏈接關(guān)系的網(wǎng)頁排序改進(jìn)算法[J]. 王沖,紀(jì)仙慧. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(05)
[7]基于用戶興趣與主題相關(guān)的PageRank算法改進(jìn)研究[J]. 王沖,紀(jì)仙慧. 計(jì)算機(jī)科學(xué). 2016(03)
[8]基于TF-IDF改進(jìn)算法的聚焦主題網(wǎng)絡(luò)爬蟲[J]. 王景中,邱銅相. 計(jì)算機(jī)應(yīng)用. 2015(10)
[9]網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[J]. 方星星,魯磊紀(jì),徐洋. 艦船電子工程. 2014(09)
[10]淺析垂直搜索引擎的應(yīng)用[J]. 徐玲玉,何利力. 計(jì)算機(jī)光盤軟件與應(yīng)用. 2014(10)
博士論文
[1]基于用戶行為的信任感知推薦方法研究[D]. 張亞楠.哈爾濱工程大學(xué) 2014
碩士論文
[1]基于Nutch的搜索引擎排序算法的研究與實(shí)現(xiàn)[D]. 李青淋.東南大學(xué) 2016
[2]面向數(shù)碼商品垂直搜索引擎原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊靜嫻.西南交通大學(xué) 2014
[3]垃圾網(wǎng)頁過濾算法及其在搜索引擎中的應(yīng)用[D]. 何濤.湖南大學(xué) 2013
[4]面向微博的消費(fèi)意圖識(shí)別[D]. 焦揚(yáng).哈爾濱工業(yè)大學(xué) 2013
本文編號(hào):3210092
【文章來源】:上海市計(jì)算技術(shù)研究所上海市
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 垂直搜索引擎研究現(xiàn)狀
1.3 論文研究內(nèi)容
1.4 論文結(jié)構(gòu)安排
1.5 本章小結(jié)
2 搜索引擎關(guān)鍵技術(shù)研究
2.1 搜索引擎概念及原理
2.1.1 垂直搜索引擎與通用搜索引擎的區(qū)別
2.1.2 垂直搜索引擎工作原理
2.2 爬蟲的原理
2.2.1 通用網(wǎng)絡(luò)爬蟲與主題爬蟲的區(qū)別
2.2.2 資源類型
2.2.3 抓取策略
2.3 中文分詞
2.3.1 分詞策略
2.3.2 分詞工具對(duì)比
2.4 Nutch概述
2.5 Solr概述
2.6 本章小結(jié)
3 網(wǎng)頁排序算法的研究與改進(jìn)
3.1 PageRank算法
3.1.1 算法解析
3.1.2 收斂性實(shí)驗(yàn)
3.1.3 算法評(píng)價(jià)
3.2 HITS算法
3.2.1 算法解析
3.2.2 算法評(píng)價(jià)
3.3 改進(jìn)算法——VSPR
3.3.1 基礎(chǔ)算法選取
3.3.2 網(wǎng)站權(quán)威度改進(jìn)
3.3.3 網(wǎng)站新鮮度改進(jìn)
3.3.4 主題相關(guān)度改進(jìn)
3.4 本章小結(jié)
4 面向稅務(wù)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
4.1 需求分析
4.2 架構(gòu)設(shè)計(jì)
4.3 稅務(wù)垂直搜索引擎的實(shí)現(xiàn)
4.3.1 信息抓取模塊
4.3.2 中文分詞模塊
4.3.3 用戶搜索模塊
4.4 算法驗(yàn)證
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 實(shí)驗(yàn)步驟及結(jié)果
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)爬蟲技術(shù)原理[J]. Kevin. 計(jì)算機(jī)與網(wǎng)絡(luò). 2018(10)
[2]開源搜索引擎Elasticsearch和Solr對(duì)比和分析[J]. 魏濤,孟方園,袁平,殷鋒. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(06)
[3]微博環(huán)境下基于用戶行為與主題相似度的改進(jìn)PageRank算法[J]. 朱顥東,丁溫雪,楊立志,馮嘉美. 計(jì)算機(jī)工程. 2017(05)
[4]網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[J]. 朱莉娜,李澤平. 黑龍江科技信息. 2017(10)
[5]PageRank算法改進(jìn)研究[J]. 邱苓蕓,王銘,趙衛(wèi)東. 軟件導(dǎo)刊. 2017(02)
[6]基于用戶反饋與鏈接關(guān)系的網(wǎng)頁排序改進(jìn)算法[J]. 王沖,紀(jì)仙慧. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(05)
[7]基于用戶興趣與主題相關(guān)的PageRank算法改進(jìn)研究[J]. 王沖,紀(jì)仙慧. 計(jì)算機(jī)科學(xué). 2016(03)
[8]基于TF-IDF改進(jìn)算法的聚焦主題網(wǎng)絡(luò)爬蟲[J]. 王景中,邱銅相. 計(jì)算機(jī)應(yīng)用. 2015(10)
[9]網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[J]. 方星星,魯磊紀(jì),徐洋. 艦船電子工程. 2014(09)
[10]淺析垂直搜索引擎的應(yīng)用[J]. 徐玲玉,何利力. 計(jì)算機(jī)光盤軟件與應(yīng)用. 2014(10)
博士論文
[1]基于用戶行為的信任感知推薦方法研究[D]. 張亞楠.哈爾濱工程大學(xué) 2014
碩士論文
[1]基于Nutch的搜索引擎排序算法的研究與實(shí)現(xiàn)[D]. 李青淋.東南大學(xué) 2016
[2]面向數(shù)碼商品垂直搜索引擎原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊靜嫻.西南交通大學(xué) 2014
[3]垃圾網(wǎng)頁過濾算法及其在搜索引擎中的應(yīng)用[D]. 何濤.湖南大學(xué) 2013
[4]面向微博的消費(fèi)意圖識(shí)別[D]. 焦揚(yáng).哈爾濱工業(yè)大學(xué) 2013
本文編號(hào):3210092
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3210092.html
最近更新
教材專著