一種基于Lucene的文檔檢索系統(tǒng)的研究及應(yīng)用
本文選題:全文檢索 + 頁面排序 ; 參考:《大連交通大學(xué)》2012年碩士論文
【摘要】:全文檢索是現(xiàn)代信息檢索技術(shù)的一個非常重要的分支,它既是處理非結(jié)構(gòu)化數(shù)據(jù)的強大工具,也是現(xiàn)代搜索領(lǐng)域的核心技術(shù)之一。本文對全文檢索的有關(guān)技術(shù)進行了深入的研究。在頁面排序算法方面,本文提出了一種改進的PageRank頁面排序算法,同傳統(tǒng)PageRank算法相比,很好的改進了傳統(tǒng)算法在主題漂移和權(quán)值沉積方面的問題。本文的重點放在了全文檢索技術(shù)的應(yīng)用上,對新技術(shù)的利用、檢索性能的改善、加快檢索速度等方面都做了重點研究。 PageRank算法是Google提出的一種基于網(wǎng)頁鏈接的頁面排序算法。傳統(tǒng)的PageRank存在著主題漂移和權(quán)重值沉積兩個方面的不足。本文在對傳統(tǒng)PageRank算法進行了深入研究的基礎(chǔ)上,提出了一種二次加權(quán)的改進PageRank算法,改進后的算法有效的改善了主題漂移和權(quán)值沉積。 當(dāng)前,全文檢索的平臺并不是很常見,本文介紹了一種全文檢索工具包-Lucene,它功能強大,完全用Java寫成,便于嵌入到各種應(yīng)用中。近年來被廣泛使用。Lucene同時也是一款完全開放源代碼的軟件包,對于我們學(xué)習(xí)搜索引擎的核心技術(shù)提供了非常好的機會,對其源代碼的研讀、二次開發(fā)都是一件有意義的事情。 在應(yīng)用方面,本文設(shè)計并實現(xiàn)了基于Lucene的服務(wù)外包政策文檔搜索系統(tǒng)。這個系統(tǒng)是一個B/S模式的Web應(yīng)用程序,采用主流的MVC模式設(shè)計,軟件架構(gòu)采用Struts,開發(fā)語言為Java。系統(tǒng)包括文檔錄入模塊,索引建立模塊,檢索查詢模塊以及結(jié)果處理模塊。在結(jié)果處理部分,通過二次加權(quán)的PageRank算法對Lucene的頁面排序算法進行改進,通過大量的實驗后得到了很好的效果。
[Abstract]:Full-text retrieval is a very important branch of modern information retrieval technology. It is not only a powerful tool to deal with unstructured data, but also one of the core technologies in the field of modern search. In this paper, the related technology of full-text retrieval has been deeply studied. In the aspect of page sorting algorithm, this paper proposes an improved PageRank page sorting algorithm, which is better than the traditional PageRank algorithm in topic drift and weight deposition. This paper focuses on the application of full-text retrieval technology, the utilization of new technology, the improvement of retrieval performance, PageRank algorithm is a page sorting algorithm based on web link proposed by Google. Traditional PageRank has two disadvantages: topic drift and weight deposition. Based on the deep study of the traditional PageRank algorithm, this paper proposes an improved PageRank algorithm with quadratic weighting, which effectively improves the topic drift and weight deposition. At present, the platform of full-text retrieval is not very common. This paper introduces a kind of full-text retrieval tool-Lucene, which is powerful, written in Java and easy to embed in various applications. Lucene has been widely used in recent years, and it is also a completely open source software package, which provides a very good opportunity for us to learn the core technology of search engine. In the aspect of application, this paper designs and implements the policy document search system of service outsourcing based on Lucene. This system is a Web application based on B / S pattern. It adopts the mainstream MVC pattern design, the software architecture adopts Struts, and the development language is Java. The system includes document input module, index building module, retrieval and query module and result processing module. In the part of result processing, Lucene's page sorting algorithm is improved by using PageRank algorithm, which is weighted twice, and good results are obtained through a lot of experiments.
【學(xué)位授予單位】:大連交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前10條
1 馬海波;陳時勇;;基于網(wǎng)頁等級的PageRank算法改進[J];大連交通大學(xué)學(xué)報;2010年02期
2 何國斌;趙晶璐;;Web頁面主題相關(guān)性排序算法的研究[J];計算機工程與應(yīng)用;2009年23期
3 田甜;倪林;;基于PageRank算法的權(quán)威值不均衡分配問題[J];計算機工程;2007年18期
4 楊勁松;凌培亮;;搜索引擎PageRank算法的改進[J];計算機工程;2009年22期
5 王德廣;周志剛;梁旭;;PageRank算法的分析及其改進[J];計算機工程;2010年22期
6 陳再良;凌力;周強;;dPageRank——一種改進的分布式PageRank算法[J];計算機應(yīng)用;2006年01期
7 李曉明;王韜;劉東;杜江凌;;走進多核時代[J];計算機科學(xué)與探索;2008年06期
8 喬維;孫茂松;;漢語交集型歧義切分字段關(guān)于專業(yè)領(lǐng)域的統(tǒng)計特性[J];中文信息學(xué)報;2008年04期
9 李子臣;;搜索技術(shù)的現(xiàn)狀及發(fā)展前景[J];情報科學(xué);2007年07期
10 劉偉;嚴華梁;肖建國;曾建勛;;一種Web評論自動抽取方法[J];軟件學(xué)報;2010年12期
相關(guān)博士學(xué)位論文 前1條
1 吳煒;密文全文檢索系統(tǒng)中的索引機制研究[D];華中科技大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 張硯明;基于鏈接結(jié)構(gòu)分析的Web頁面排序算法[D];西安電子科技大學(xué);2010年
2 張校乾;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];大連理工大學(xué);2005年
3 王軍;基于文本分類的WEB信息檢索技術(shù)的研究[D];大連交通大學(xué);2008年
4 程建;一種網(wǎng)頁搜索引擎原型系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2009年
5 陳時勇;Web挖掘中搜索引擎的研究[D];大連交通大學(xué);2010年
6 徐元浩;基于潛在語義分析的專利文獻分析與搜索技術(shù)的研究[D];浙江大學(xué);2010年
7 岳莉;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];西安電子科技大學(xué);2010年
8 縣小平;搜索引擎PageRank算法研究[D];西北大學(xué);2010年
9 胡鵬飛;Lucene與中文分詞技術(shù)的研究及應(yīng)用[D];北京交通大學(xué);2010年
10 蘇景春;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];北京交通大學(xué);2010年
,本文編號:2074301
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2074301.html