天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于改進PageRank算法的醫(yī)學垂直搜索引擎的研究與實現(xiàn)

發(fā)布時間:2018-09-18 09:07
【摘要】:近年來,互聯(lián)網(wǎng)逐漸成為人們獲得醫(yī)學健康資訊的一個重要平臺,其中搜索引擎在查詢醫(yī)學信息的過程中給人們提供了極大的便利。但是現(xiàn)有的醫(yī)學搜索引擎在主題相似性判斷和網(wǎng)頁排序算法還是存在不足。因此,本文從主題相似性判斷和PageRank算法方面做出改進,構建了一個面向醫(yī)學領域的垂直搜索引擎。主要研究內(nèi)容與成果如下:(1)選擇初始URL,構建醫(yī)學領域主題詞庫,研究空間向量模型。在抓取網(wǎng)頁后,分別從超鏈接、元信息、詞庫三個方面進行主題相關性判別,高效地去除了與主題不相關的頁面,使得搜索引擎的效率大幅度提升。(2)本文對PageRank算法和HITS算法進行了研究與分析。由于PageRank算法的計算效率更高、計算數(shù)據(jù)量更大,所以,本文采用PageRank算法作為網(wǎng)頁排序算法。并針對PageRank算法偏向舊網(wǎng)頁、平均分配權值、主題漂移等不足之處,引入時間反饋因子,提高“新”網(wǎng)頁的評分;引入權威性反饋因子改進出鏈網(wǎng)頁的權值;引入了主題相關度因子抑制“主題漂移”。(3)基于以上兩點研究成果,本文設計了一個面向醫(yī)學領域的垂直搜索引擎。在設計搜索引擎時,主要分為爬蟲模塊、檢索服務模塊。另外,基于Nutch的高擴展性及插件機制,本文加入了IKAnalyzer中文分詞器改善搜索引擎處理中文信息的能力。(4)最后對項目進行部署并驗證。實驗表明,該垂直搜索引擎實現(xiàn)了按詞切分,并且分詞的準確率達到了90%;對網(wǎng)頁經(jīng)過主題相似性判斷后,爬蟲效率提高了8%;通過對PageRank算法的改進,垂直搜索引擎的查準率有了明顯提高,并且返回給用戶的前10條結果的查準率在0.7以上。
[Abstract]:In recent years, the Internet has gradually become an important platform for people to obtain medical health information, in which search engine provides great convenience in the process of searching medical information. However, the existing medical search engines still have some shortcomings in topic similarity judgment and web page sorting algorithms. Therefore, a vertical search engine oriented to medical field is constructed by improving the topic similarity judgment and PageRank algorithm. The main research contents and results are as follows: (1) choose the initial URL, to construct the subject thesaurus of medical field and study the spatial vector model. After crawling the web page, we distinguish the theme correlation from hyperlink, meta-information and thesaurus respectively, and effectively remove the page which is not related to the topic. The efficiency of search engine is greatly improved. (2) the PageRank algorithm and HITS algorithm are studied and analyzed in this paper. Because the PageRank algorithm is more efficient and the amount of computing data is larger, the PageRank algorithm is used as the sorting algorithm for web pages in this paper. Aiming at the shortcomings of PageRank algorithm, such as biased old web pages, average weight distribution, topic drift and so on, time feedback factor is introduced to improve the score of "new" web pages, and authoritative feedback factor is introduced to improve the weights of web pages. The theme correlation factor is introduced to suppress the "topic drift". (3) based on the above two research results, this paper designs a vertical search engine oriented to the medical field. When designing search engine, it is mainly divided into crawler module and retrieval service module. In addition, based on the high extensibility and plug-in mechanism of Nutch, this paper adds IKAnalyzer Chinese word Segmentation to improve the ability of search engine to process Chinese information. (4) finally, the project is deployed and verified. Experiments show that the vertical search engine can segment words by word, and the accuracy of word segmentation reaches 900.The crawler efficiency is improved by 8 percent after the page is judged by the similarity of topic, and the PageRank algorithm is improved. The accuracy of vertical search engine has improved obviously, and the precision rate of the top 10 results returned to users is more than 0.7.
【學位授予單位】:長安大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前10條

1 吳宏洲;;分詞技術的研究與應用——一種快速分詞的實現(xiàn)[J];電腦知識與技術;2015年06期

2 高慧;張濤;王付強;夏彬;;面向輿情發(fā)現(xiàn)系統(tǒng)的中文語料分詞研究[J];軟件導刊;2015年11期

3 萬曉松;王志海;原繼東;;基于稀疏矩陣面向論文索引排名的啟發(fā)式算法[J];計算機應用;2015年10期

4 程維剛;王寧;田勇;;基于關鍵詞匹配技術的相似試題檢測方法研究[J];北華航天工業(yè)學院學報;2015年03期

5 張吳波;史旅華;李貴榮;;全文檢索引擎Lucene系統(tǒng)模型與應用研究[J];軟件導刊;2015年06期

6 陳道存;劉斌;張鑫;;高校FTP搜索引擎的設計與實現(xiàn)[J];蚌埠學院學報;2015年03期

7 于娟;劉強;;主題網(wǎng)絡爬蟲研究綜述[J];計算機工程與科學;2015年02期

8 高翔;吳萬琴;;人工智能技術在搜索引擎中的應用[J];硅谷;2015年03期

9 張軍強;李煒;沈奇威;;一種爬蟲監(jiān)控系統(tǒng)的設計與實現(xiàn)[J];電信工程技術與標準化;2014年12期

10 胡宏偉;虞萍;周南;喬軍;;基于Lucene的文獻資料全文檢索系統(tǒng)的設計與實現(xiàn)[J];重慶理工大學學報(自然科學);2014年11期

相關碩士學位論文 前6條

1 王清霞;基于領域本體的垂直搜索引擎頁面排序算法的研究[D];蘭州理工大學;2014年

2 岑沛斯;基于文本分析的互聯(lián)網(wǎng)視頻搜索引擎技術研究[D];杭州電子科技大學;2013年

3 黃江平;基于Lucene的桌面搜索引擎的研究與應用[D];浙江理工大學;2012年

4 朱明強;基于詞典和詞頻分析的論壇語料未登錄詞識別研究[D];西南大學;2012年

5 李宜兵;基于搜索引擎網(wǎng)頁排序算法研究[D];沈陽理工大學;2011年

6 董祥千;搜索引擎設計分析與結果聚類改進[D];電子科技大學;2007年



本文編號:2247438

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2247438.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶e68ac***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
久久这里只有精品中文字幕| 亚洲最新av在线观看| 午夜福利国产精品不卡| 美女黄色三级深夜福利| 年轻女房东2中文字幕| 亚洲中文字幕免费人妻| 日韩一级免费中文字幕视频| 亚洲国产四季欧美一区| 日本少妇中文字幕不卡视频| 精品一区二区三区中文字幕| 国产一区二区不卡在线视频| av在线免费观看一区二区三区| 色丁香之五月婷婷开心| 久久热在线免费视频精品| 国产日韩欧美综合视频| 亚洲日本加勒比在线播放| 亚洲天堂精品一区二区| 超薄丝袜足一区二区三区| 亚洲欧洲一区二区综合精品| 少妇肥臀一区二区三区| 婷婷九月在线中文字幕| 国产户外勾引精品露出一区| 国产高清一区二区白浆| 久久精品国产亚洲av麻豆尤物 | 丰满少妇高潮一区二区| 久久精品久久久精品久久| 亚洲综合激情另类专区老铁性| 偷拍洗澡一区二区三区| 欧美不卡午夜中文字幕| 日韩欧美精品一区二区三区| 亚洲精品有码中文字幕在线观看| 日韩人妻精品免费一区二区三区| 中文字幕亚洲在线一区| 一区二区三区欧美高清| 亚洲欧美日韩另类第一页| 91一区国产中文字幕| 大尺度剧情国产在线视频| 99久久免费中文字幕| 超碰在线免费公开中国黄片| 欧美一级片日韩一级片| 国产又色又爽又黄又大|