RSS資源聚合系統(tǒng)搜索引擎的設計與實現(xiàn)
本文關鍵詞: RSS 資源聚合 評價算法 搜索模型 搜索引擎 出處:《中山大學》2012年碩士論文 論文類型:學位論文
【摘要】:互聯(lián)網(wǎng)信息的爆發(fā)式增長給人們帶來了信息量過載的問題,用戶在龐大的網(wǎng)絡資源中獲取自己關注的信息已經(jīng)越來越困難。RSS信息聚合平臺為用戶提供了多樣化、個性化的信息獲取方式,便于用戶及時快速地獲取自己關注的網(wǎng)絡信息。 隨著RSS信息聚合平臺中數(shù)據(jù)源的不斷更新,平臺中的數(shù)據(jù)量也日漸龐大。當數(shù)據(jù)量遠遠超過用戶逐一瀏覽信息的能力范圍時,平臺中的搜索引擎就成為了用戶精確檢索信息的主要工具。 本文圍繞著實現(xiàn)一個RSS資源聚合系統(tǒng)的搜索引擎,通過研究系統(tǒng)中RSS數(shù)據(jù)源的特點,提出了面向RSS資源聚合系統(tǒng)的搜索模型。該模型在具備了現(xiàn)有RSS信息聚合平臺基本搜索功能的基礎上,結合了Lucene排序算法和RSS數(shù)據(jù)源評價算法,使得其搜索的排序結果更加貼近于系統(tǒng)中RSS數(shù)據(jù)源的特點,,為RSS資源聚合系統(tǒng)提供更貼切其特征的搜索服務。本文完成的主要工作如下: 首先,本文提出了RSS數(shù)據(jù)源評價算法。本文分析了RSS資源聚合系統(tǒng)中數(shù)據(jù)源的特點,借鑒網(wǎng)頁鏈接分析中的排序算法思想,提出了RSS數(shù)據(jù)源的評價算法。通過該算法可以衡量系統(tǒng)中不同RSS數(shù)據(jù)源之間質量的高低。 其次,本文結合了Lucene排序算法和RSS數(shù)據(jù)源的評價算法,設計了一個面向RSS資源聚合系統(tǒng)的搜索模型。該搜索模型加強了RSS數(shù)據(jù)源質量和條目發(fā)布時間對搜索排序結果的影響,使得排序結果更加符合系統(tǒng)中數(shù)據(jù)的特征,為系統(tǒng)提供更貼切的搜索服務。本文通過實驗和測試驗證了該模型的有效性和可行性。 最后,本文使用檢索引擎工具包Lucene構建一個搜索引擎的框架,實現(xiàn)了“HCI@RSS”資源聚合系統(tǒng)的搜索引擎。該搜索引擎應用了面向RSS資源聚合系統(tǒng)的搜索模型。本文最后遵循軟件工程的方法描述了系統(tǒng)搜索引擎模塊的設計和實現(xiàn)過程,并通過系統(tǒng)的測試和運行驗證了該搜索引擎的有效性和可行性。
[Abstract]:The explosive growth of Internet information brings people the problem of information overload. It is more and more difficult for users to obtain the information of their concern in the huge network resources. RSS information aggregation platform provides users with a variety of information. Personalized information acquisition method is convenient for users to get their concerned network information in time and quickly. With the continuous updating of the data sources in the RSS information aggregation platform, the amount of data in the platform is becoming larger and larger. When the amount of data is far beyond the range of users' ability to browse the information one by one, The search engine in the platform has become the main tool for users to retrieve information accurately. This paper focuses on the implementation of a RSS resource aggregation system search engine, through the study of the characteristics of RSS data sources in the system, This paper presents a search model for RSS resource aggregation system, which combines the Lucene sorting algorithm and the RSS data source evaluation algorithm on the basis of the basic searching function of the existing RSS information aggregation platform. It makes the search result more close to the characteristics of the RSS data source in the system, and provides a more appropriate search service for the RSS resource aggregation system. The main work of this paper is as follows:. First of all, this paper puts forward the RSS data source evaluation algorithm, analyzes the characteristics of the data source in the RSS resource aggregation system, and draws lessons from the idea of sorting algorithm in the web link analysis. The evaluation algorithm of RSS data sources is proposed, by which the quality of different RSS data sources in the system can be measured. Secondly, combining the Lucene sorting algorithm and the RSS data source evaluation algorithm, this paper designs a search model for RSS resource aggregation system, which strengthens the influence of RSS data source quality and item publishing time on the search sorting results. The sorting results are more consistent with the characteristics of the data in the system and provide a more appropriate search service for the system. The validity and feasibility of the model are verified by experiments and tests. Finally, this article uses Lucene, a search engine toolkit, to build a framework for a search engine. The search engine of "HCI@RSS" resource aggregation system is implemented. This search engine applies the search model oriented to RSS resource aggregation system. Finally, the design and implementation process of search engine module is described according to the method of software engineering. The effectiveness and feasibility of the search engine are verified by testing and running of the system.
【學位授予單位】:中山大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【相似文獻】
相關期刊論文 前10條
1 李志杰;;搜索引擎和RSS在體育信息檢索中的應用與比較[J];科技創(chuàng)新導報;2008年12期
2 封碩;趙捧未;施水才;;基于RSS的分布式博客搜索引擎的研究[J];情報雜志;2007年08期
3 張煥明;;基于Lucene的博客搜索引擎設計與實現(xiàn)[J];現(xiàn)代計算機(專業(yè)版);2010年03期
4 張立彬;楊軍花;翟春紅;王璐;;基于RSS的搜索引擎技術及其發(fā)展趨向探析[J];情報科學;2009年02期
5 曲淑敏;;RSS技術在個性學術文獻檢索中的應用[J];圖書館學研究;2010年04期
6 劉蘭;徐樹維;;微內容及微內容環(huán)境下未來圖書館發(fā)展[J];圖書情報工作;2009年03期
7 陳詩琴;;搜索引擎和RSS技術在網(wǎng)絡閱讀中的應用[J];才智;2010年01期
8 張鼐;張英;;Web3.0與個性化信息服務[J];新世紀圖書館;2009年02期
9 王建斌;;利用RSS整合校園Web信息和資源[J];計算機與現(xiàn)代化;2006年04期
10 周建芳,劉桂芳;基于RSS閱讀器的個人信息門戶的構建[J];科技情報開發(fā)與經(jīng)濟;2005年17期
相關會議論文 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
5 湯薇;曾艷;;構建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術的搜索引擎[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年
7 倪俊峰;;基于黃頁搜索引擎的關鍵字排名廣告系統(tǒng)的設計與實現(xiàn)[A];2005年中國索引學會年會暨學術研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務中的應用研究[A];2010年中國索引學會年會暨學術研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第2屆中國普適計算學術會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網(wǎng)絡搜索技術下的編輯工作[A];學報編輯論叢(第十一集)[C];2003年
相關重要報紙文章 前10條
1 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年
2 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟參考報;2007年
3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年
4 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務咨詢中心 常燕杰;搜索,還是門戶[N];中國計算機報;2005年
5 陳珊;浙江移動推出手機搜索引擎服務[N];人民郵電;2005年
6 趙法忠;搜索引擎還需悠著點[N];中國經(jīng)營報;2005年
7 金朝力;搜索引擎火拼搜索質量[N];北京商報;2006年
8 本報記者 趙曉輝 孟昭麗;搜索引擎駛入“避風港”[N];中國證券報;2006年
9 孫t;搜索引擎驚喜侵權官司止于“避風港”?[N];第一財經(jīng)日報;2006年
10 姜蕊;問天下誰識搜索?[N];中國高新技術產(chǎn)業(yè)導報;2006年
相關博士學位論文 前10條
1 馮辰;基于壓縮感知的RSS室內定位系統(tǒng)的研究與實現(xiàn)[D];北京交通大學;2011年
2 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
4 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年
5 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年
6 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年
8 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
9 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年
10 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年
相關碩士學位論文 前10條
1 薛云;Internet上元搜索引擎的研究與設計[D];太原理工大學;2003年
2 王春花;基于Nutch的農業(yè)搜索引擎檢索結果排序策略的研究[D];西北農林科技大學;2010年
3 李雷;基于Nutch的農業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學;2011年
4 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學;2005年
5 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學;2010年
6 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學;2010年
7 尉建興;基于Lucene搜索引擎的研究與應用[D];太原理工大學;2011年
8 李建平;智能化WEB信息搜索引擎的研究與實現(xiàn)[D];大慶石油學院;2003年
9 田生偉;基于涉農詞典的搜索引擎的研究與實踐[D];新疆大學;2004年
10 歐建斌;基于Web挖掘與信息分類的個性化搜索引擎研究[D];暨南大學;2010年
本文編號:1553124
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1553124.html