天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種基于Lucene的文檔檢索系統(tǒng)的研究及應(yīng)用

發(fā)布時間:2018-06-27 15:00

  本文選題:全文檢索 + 頁面排序 ; 參考:《大連交通大學(xué)》2012年碩士論文


【摘要】:全文檢索是現(xiàn)代信息檢索技術(shù)的一個非常重要的分支,它既是處理非結(jié)構(gòu)化數(shù)據(jù)的強大工具,也是現(xiàn)代搜索領(lǐng)域的核心技術(shù)之一。本文對全文檢索的有關(guān)技術(shù)進行了深入的研究。在頁面排序算法方面,本文提出了一種改進的PageRank頁面排序算法,同傳統(tǒng)PageRank算法相比,很好的改進了傳統(tǒng)算法在主題漂移和權(quán)值沉積方面的問題。本文的重點放在了全文檢索技術(shù)的應(yīng)用上,對新技術(shù)的利用、檢索性能的改善、加快檢索速度等方面都做了重點研究。 PageRank算法是Google提出的一種基于網(wǎng)頁鏈接的頁面排序算法。傳統(tǒng)的PageRank存在著主題漂移和權(quán)重值沉積兩個方面的不足。本文在對傳統(tǒng)PageRank算法進行了深入研究的基礎(chǔ)上,提出了一種二次加權(quán)的改進PageRank算法,改進后的算法有效的改善了主題漂移和權(quán)值沉積。 當(dāng)前,全文檢索的平臺并不是很常見,本文介紹了一種全文檢索工具包-Lucene,它功能強大,完全用Java寫成,便于嵌入到各種應(yīng)用中。近年來被廣泛使用。Lucene同時也是一款完全開放源代碼的軟件包,對于我們學(xué)習(xí)搜索引擎的核心技術(shù)提供了非常好的機會,對其源代碼的研讀、二次開發(fā)都是一件有意義的事情。 在應(yīng)用方面,本文設(shè)計并實現(xiàn)了基于Lucene的服務(wù)外包政策文檔搜索系統(tǒng)。這個系統(tǒng)是一個B/S模式的Web應(yīng)用程序,采用主流的MVC模式設(shè)計,軟件架構(gòu)采用Struts,開發(fā)語言為Java。系統(tǒng)包括文檔錄入模塊,索引建立模塊,檢索查詢模塊以及結(jié)果處理模塊。在結(jié)果處理部分,通過二次加權(quán)的PageRank算法對Lucene的頁面排序算法進行改進,通過大量的實驗后得到了很好的效果。
[Abstract]:Full-text retrieval is a very important branch of modern information retrieval technology. It is not only a powerful tool to deal with unstructured data, but also one of the core technologies in the field of modern search. In this paper, the related technology of full-text retrieval has been deeply studied. In the aspect of page sorting algorithm, this paper proposes an improved PageRank page sorting algorithm, which is better than the traditional PageRank algorithm in topic drift and weight deposition. This paper focuses on the application of full-text retrieval technology, the utilization of new technology, the improvement of retrieval performance, PageRank algorithm is a page sorting algorithm based on web link proposed by Google. Traditional PageRank has two disadvantages: topic drift and weight deposition. Based on the deep study of the traditional PageRank algorithm, this paper proposes an improved PageRank algorithm with quadratic weighting, which effectively improves the topic drift and weight deposition. At present, the platform of full-text retrieval is not very common. This paper introduces a kind of full-text retrieval tool-Lucene, which is powerful, written in Java and easy to embed in various applications. Lucene has been widely used in recent years, and it is also a completely open source software package, which provides a very good opportunity for us to learn the core technology of search engine. In the aspect of application, this paper designs and implements the policy document search system of service outsourcing based on Lucene. This system is a Web application based on B / S pattern. It adopts the mainstream MVC pattern design, the software architecture adopts Struts, and the development language is Java. The system includes document input module, index building module, retrieval and query module and result processing module. In the part of result processing, Lucene's page sorting algorithm is improved by using PageRank algorithm, which is weighted twice, and good results are obtained through a lot of experiments.
【學(xué)位授予單位】:大連交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前10條

1 馬海波;陳時勇;;基于網(wǎng)頁等級的PageRank算法改進[J];大連交通大學(xué)學(xué)報;2010年02期

2 何國斌;趙晶璐;;Web頁面主題相關(guān)性排序算法的研究[J];計算機工程與應(yīng)用;2009年23期

3 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計算機工程;2007年18期

4 楊勁松;凌培亮;;搜索引擎PageRank算法的改進[J];計算機工程;2009年22期

5 王德廣;周志剛;梁旭;;PageRank算法的分析及其改進[J];計算機工程;2010年22期

6 陳再良;凌力;周強;;dPageRank——一種改進的分布式PageRank算法[J];計算機應(yīng)用;2006年01期

7 李曉明;王韜;劉東;杜江凌;;走進多核時代[J];計算機科學(xué)與探索;2008年06期

8 喬維;孫茂松;;漢語交集型歧義切分字段關(guān)于專業(yè)領(lǐng)域的統(tǒng)計特性[J];中文信息學(xué)報;2008年04期

9 李子臣;;搜索技術(shù)的現(xiàn)狀及發(fā)展前景[J];情報科學(xué);2007年07期

10 劉偉;嚴華梁;肖建國;曾建勛;;一種Web評論自動抽取方法[J];軟件學(xué)報;2010年12期

相關(guān)博士學(xué)位論文 前1條

1 吳煒;密文全文檢索系統(tǒng)中的索引機制研究[D];華中科技大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 張硯明;基于鏈接結(jié)構(gòu)分析的Web頁面排序算法[D];西安電子科技大學(xué);2010年

2 張校乾;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];大連理工大學(xué);2005年

3 王軍;基于文本分類的WEB信息檢索技術(shù)的研究[D];大連交通大學(xué);2008年

4 程建;一種網(wǎng)頁搜索引擎原型系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2009年

5 陳時勇;Web挖掘中搜索引擎的研究[D];大連交通大學(xué);2010年

6 徐元浩;基于潛在語義分析的專利文獻分析與搜索技術(shù)的研究[D];浙江大學(xué);2010年

7 岳莉;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];西安電子科技大學(xué);2010年

8 縣小平;搜索引擎PageRank算法研究[D];西北大學(xué);2010年

9 胡鵬飛;Lucene與中文分詞技術(shù)的研究及應(yīng)用[D];北京交通大學(xué);2010年

10 蘇景春;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];北京交通大學(xué);2010年

,

本文編號:2074301

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2074301.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4123f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产精品一区二区传媒蜜臀| 国产成人亚洲欧美二区综| 黑丝袜美女老师的小逼逼| 国产三级黄片在线免费看| 免费午夜福利不卡片在线 视频| 亚洲天堂有码中文字幕视频| 大香蕉再在线大香蕉再在线| 一区二区日本一区二区欧美| 中国一区二区三区人妻| 午夜福利黄片免费观看| 欧美日韩一区二区三区色拉拉| 亚洲五月婷婷中文字幕| 国产在线不卡中文字幕| 国产精品蜜桃久久一区二区| 99精品国产自在现线观看| 国产超薄黑色肉色丝袜| 日韩在线视频精品视频| 丰满少妇高潮一区二区| 九九热视频网在线观看| 日韩免费国产91在线| 久久国产青偷人人妻潘金莲| 成人精品一级特黄大片| 欧美日韩亚洲国产精品| 日韩欧美国产三级在线观看| 欧美成人久久久免费播放| 夫妻性生活黄色录像视频| 东北女人的逼操的舒服吗| 午夜午夜精品一区二区| 日本一二三区不卡免费| 中文字幕一区久久综合| 国产精品欧美一区两区| 日本欧美视频在线观看免费 | 东京干男人都知道的天堂| 国产精品白丝久久av| 一区中文字幕人妻少妇| 99久久精品国产麻豆| 俄罗斯胖女人性生活视频| 国产亚洲午夜高清国产拍精品| 国产欧美一区二区三区精品视| 欧美激情区一区二区三区| 亚洲国产综合久久天堂|