基于Slor的個(gè)性化搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
本文選題:個(gè)性化 + 用戶(hù)模型; 參考:《北京化工大學(xué)》2012年碩士論文
【摘要】:隨著Internet(互聯(lián)網(wǎng))技術(shù)的飛速發(fā)展,存在于互聯(lián)網(wǎng)中的信息量變得越來(lái)越巨大。面對(duì)如此巨大的信息,如何更加有效的利用這些信息資源,已經(jīng)成為人們研究主要課題。存在于互聯(lián)網(wǎng)中的信息來(lái)源廣泛,通常會(huì)以不同的形式存在。對(duì)于這種不同來(lái)源、不同形式的海量信息,怎樣準(zhǔn)確地、快速地查找到自己所需要的信息成為我們?cè)谑褂没ヂ?lián)網(wǎng)的時(shí)候面臨的一個(gè)問(wèn)題。搜索引擎(Search Engine)的出現(xiàn),從一定程度上緩解了這個(gè)問(wèn)題對(duì)人們的困擾。 但是隨著生活節(jié)奏的不斷加快,對(duì)于搜索引擎的性能要求不斷提升對(duì)于搜索效率要求也越來(lái)越高,因此如何使用戶(hù)能夠更加快速和準(zhǔn)確的檢索到自己想要的信息,受到越來(lái)越多研究者的關(guān)注。個(gè)性化搜索引擎就是在這種背景下出現(xiàn)的,它運(yùn)用個(gè)性化相關(guān)的技術(shù),實(shí)現(xiàn)搜索結(jié)果的個(gè)性化。本文系統(tǒng)中使用建立用戶(hù)模型的方法,通過(guò)對(duì)用戶(hù)信息的采集,提取用戶(hù)相關(guān)信息的關(guān)鍵詞,利用TF-IDF算法,得到用戶(hù)關(guān)鍵詞的權(quán)重值,利用關(guān)鍵字和權(quán)重值組成的向量來(lái)表示用戶(hù)模型。本文主要的研究?jī)?nèi)容包括: 1.基于搜索引擎的工作原理、關(guān)鍵技術(shù)和工作流程設(shè)計(jì)了本文系統(tǒng)中的搜索引擎框架。 2.根據(jù)Web Crawler(網(wǎng)絡(luò)爬蟲(chóng))和Heritrix(爬蟲(chóng)框架)的原理設(shè)計(jì)了適合本系統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng),并在互聯(lián)網(wǎng)中進(jìn)行了網(wǎng)頁(yè)的抓取。 3.基于開(kāi)源框架Solr工作的原理建立了本文中所需的索引系統(tǒng)和檢索系統(tǒng)。 4.建立用戶(hù)模型,利用Solr搭建了個(gè)性化搜索引擎系統(tǒng),實(shí)驗(yàn)證明本文中的個(gè)性化搜索引擎系統(tǒng)較高的提升了搜索結(jié)果的準(zhǔn)確率,并且更加貼近用戶(hù)的需求。
[Abstract]:With the rapid development of Internet (Internet) technology, the amount of information in the Internet has become more and more huge.In the face of such huge information, how to make more effective use of these information resources has become the main research topic.There are a wide range of sources of information in the Internet, usually in different forms.How to find the information we need accurately and quickly becomes a problem we face when we use the Internet.The emergence of search engine alleviates this problem to a certain extent.However, with the increasing pace of life, the performance requirements of search engines are increasing. Therefore, how to make users can retrieve the information they want more quickly and accurately.More and more researchers pay attention to it.Personalized search engine is under this background, it uses personalized technology to achieve personalized search results.In this paper, we use the method of establishing user model, through collecting user information, extracting the key words of user related information, using TF-IDF algorithm, get the weight value of user keywords.The user model is represented by a vector composed of keywords and weight values.The main contents of this paper are as follows:1.Based on the working principle of search engine, key technology and workflow, the framework of search engine in this paper is designed.2.According to the principles of Web Crawler and Heritrix, a web crawler suitable for this system is designed, and the web pages are crawled in the Internet.3.Based on the working principle of open source framework Solr, the index system and retrieval system are established.4.The user model is established and the personalized search engine system is built by using Solr. The experiments show that the personalized search engine system in this paper improves the accuracy of search results and is more close to the needs of users.
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 于洪波;;中文分詞技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2010年05期
2 張劍瑛;;搜索引擎[J];黑龍江科技信息;2010年25期
3 陳燕娜,邵志清;基于全文搜索的中文搜索引擎設(shè)計(jì)技術(shù)[J];計(jì)算機(jī)工程與應(yīng)用;2002年17期
4 潘春華,馮太明,武港山;基于移動(dòng)爬蟲(chóng)的專(zhuān)用Web信息收集系統(tǒng)的設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2003年36期
5 何明;周軍;李樹(shù)友;;語(yǔ)義相似的PageRank改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2009年27期
6 張衛(wèi)豐;徐寶文;周曉宇;許蕾;李東;;Web搜索引擎綜述[J];計(jì)算機(jī)科學(xué);2001年09期
7 王瓊;搜索引擎的四大發(fā)展趨勢(shì)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年03期
8 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書(shū)垂直搜索引擎的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)時(shí)代;2010年02期
9 汪濤,樊孝忠;鏈接分析對(duì)主題爬蟲(chóng)的改進(jìn)[J];計(jì)算機(jī)應(yīng)用;2004年S2期
10 曾彪;;Solr學(xué)術(shù)索引應(yīng)用顯身手[J];中國(guó)教育網(wǎng)絡(luò);2010年10期
相關(guān)碩士學(xué)位論文 前10條
1 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 崔頃頃;基于個(gè)性化搜索的系統(tǒng)研究與設(shè)計(jì)[D];北京交通大學(xué);2011年
3 陳凱;搜索引擎有關(guān)排序算法研究[D];武漢理工大學(xué);2011年
4 黃衛(wèi)平;個(gè)性化搜索引擎的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2011年
5 王小森;基于Solr的搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
6 李彥輝;基于用戶(hù)興趣的個(gè)性化搜索引擎研究[D];山西財(cái)經(jīng)大學(xué);2011年
7 藺繼國(guó);基于點(diǎn)擊數(shù)據(jù)分析的個(gè)性化搜索引擎研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
8 梁萍;搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)及結(jié)果聚類(lèi)的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
9 孟慶鑫;搜索引擎相關(guān)技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
10 王金花;一種利用本體關(guān)聯(lián)度改進(jìn)的TF-IDF特征詞提取方法[D];河北大學(xué);2011年
,本文編號(hào):1732589
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1732589.html