基于Slor的個性化搜索引擎設(shè)計與實現(xiàn)
本文選題:個性化 + 用戶模型; 參考:《北京化工大學(xué)》2012年碩士論文
【摘要】:隨著Internet(互聯(lián)網(wǎng))技術(shù)的飛速發(fā)展,存在于互聯(lián)網(wǎng)中的信息量變得越來越巨大。面對如此巨大的信息,如何更加有效的利用這些信息資源,已經(jīng)成為人們研究主要課題。存在于互聯(lián)網(wǎng)中的信息來源廣泛,通常會以不同的形式存在。對于這種不同來源、不同形式的海量信息,怎樣準(zhǔn)確地、快速地查找到自己所需要的信息成為我們在使用互聯(lián)網(wǎng)的時候面臨的一個問題。搜索引擎(Search Engine)的出現(xiàn),從一定程度上緩解了這個問題對人們的困擾。 但是隨著生活節(jié)奏的不斷加快,對于搜索引擎的性能要求不斷提升對于搜索效率要求也越來越高,因此如何使用戶能夠更加快速和準(zhǔn)確的檢索到自己想要的信息,受到越來越多研究者的關(guān)注。個性化搜索引擎就是在這種背景下出現(xiàn)的,它運用個性化相關(guān)的技術(shù),實現(xiàn)搜索結(jié)果的個性化。本文系統(tǒng)中使用建立用戶模型的方法,通過對用戶信息的采集,提取用戶相關(guān)信息的關(guān)鍵詞,利用TF-IDF算法,得到用戶關(guān)鍵詞的權(quán)重值,利用關(guān)鍵字和權(quán)重值組成的向量來表示用戶模型。本文主要的研究內(nèi)容包括: 1.基于搜索引擎的工作原理、關(guān)鍵技術(shù)和工作流程設(shè)計了本文系統(tǒng)中的搜索引擎框架。 2.根據(jù)Web Crawler(網(wǎng)絡(luò)爬蟲)和Heritrix(爬蟲框架)的原理設(shè)計了適合本系統(tǒng)的網(wǎng)絡(luò)爬蟲,并在互聯(lián)網(wǎng)中進行了網(wǎng)頁的抓取。 3.基于開源框架Solr工作的原理建立了本文中所需的索引系統(tǒng)和檢索系統(tǒng)。 4.建立用戶模型,利用Solr搭建了個性化搜索引擎系統(tǒng),實驗證明本文中的個性化搜索引擎系統(tǒng)較高的提升了搜索結(jié)果的準(zhǔn)確率,并且更加貼近用戶的需求。
[Abstract]:With the rapid development of Internet (Internet) technology, the amount of information in the Internet has become more and more huge.In the face of such huge information, how to make more effective use of these information resources has become the main research topic.There are a wide range of sources of information in the Internet, usually in different forms.How to find the information we need accurately and quickly becomes a problem we face when we use the Internet.The emergence of search engine alleviates this problem to a certain extent.However, with the increasing pace of life, the performance requirements of search engines are increasing. Therefore, how to make users can retrieve the information they want more quickly and accurately.More and more researchers pay attention to it.Personalized search engine is under this background, it uses personalized technology to achieve personalized search results.In this paper, we use the method of establishing user model, through collecting user information, extracting the key words of user related information, using TF-IDF algorithm, get the weight value of user keywords.The user model is represented by a vector composed of keywords and weight values.The main contents of this paper are as follows:1.Based on the working principle of search engine, key technology and workflow, the framework of search engine in this paper is designed.2.According to the principles of Web Crawler and Heritrix, a web crawler suitable for this system is designed, and the web pages are crawled in the Internet.3.Based on the working principle of open source framework Solr, the index system and retrieval system are established.4.The user model is established and the personalized search engine system is built by using Solr. The experiments show that the personalized search engine system in this paper improves the accuracy of search results and is more close to the needs of users.
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前10條
1 于洪波;;中文分詞技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2010年05期
2 張劍瑛;;搜索引擎[J];黑龍江科技信息;2010年25期
3 陳燕娜,邵志清;基于全文搜索的中文搜索引擎設(shè)計技術(shù)[J];計算機工程與應(yīng)用;2002年17期
4 潘春華,馮太明,武港山;基于移動爬蟲的專用Web信息收集系統(tǒng)的設(shè)計[J];計算機工程與應(yīng)用;2003年36期
5 何明;周軍;李樹友;;語義相似的PageRank改進算法[J];計算機工程與應(yīng)用;2009年27期
6 張衛(wèi)豐;徐寶文;周曉宇;許蕾;李東;;Web搜索引擎綜述[J];計算機科學(xué);2001年09期
7 王瓊;搜索引擎的四大發(fā)展趨勢[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年03期
8 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實現(xiàn)[J];計算機時代;2010年02期
9 汪濤,樊孝忠;鏈接分析對主題爬蟲的改進[J];計算機應(yīng)用;2004年S2期
10 曾彪;;Solr學(xué)術(shù)索引應(yīng)用顯身手[J];中國教育網(wǎng)絡(luò);2010年10期
相關(guān)碩士學(xué)位論文 前10條
1 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 崔頃頃;基于個性化搜索的系統(tǒng)研究與設(shè)計[D];北京交通大學(xué);2011年
3 陳凱;搜索引擎有關(guān)排序算法研究[D];武漢理工大學(xué);2011年
4 黃衛(wèi)平;個性化搜索引擎的研究與實現(xiàn)[D];武漢理工大學(xué);2011年
5 王小森;基于Solr的搜索引擎的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年
6 李彥輝;基于用戶興趣的個性化搜索引擎研究[D];山西財經(jīng)大學(xué);2011年
7 藺繼國;基于點擊數(shù)據(jù)分析的個性化搜索引擎研究[D];國防科學(xué)技術(shù)大學(xué);2010年
8 梁萍;搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2011年
9 孟慶鑫;搜索引擎相關(guān)技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年
10 王金花;一種利用本體關(guān)聯(lián)度改進的TF-IDF特征詞提取方法[D];河北大學(xué);2011年
,本文編號:1732589
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1732589.html