天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于手機(jī)產(chǎn)品信息的個(gè)性化搜索引擎的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-03-23 17:30

  本文選題:Heritrix爬蟲(chóng) 切入點(diǎn):Lucene搜索 出處:《湖北工業(yè)大學(xué)》2012年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,搜索引擎成為了人們獲取信息的一個(gè)重要途徑。人們不僅希望搜索引擎能夠提供完整的信息資源,也對(duì)搜索引擎的服務(wù)提出了更高的要求。與傳統(tǒng)的通用搜索引擎相比,,個(gè)性化搜索引擎因其能夠?yàn)橛脩?hù)提供特定領(lǐng)域的主題搜索和個(gè)性化服務(wù),而日益受到了研究者的重視;谶@樣的背景,本論文設(shè)計(jì)了基于個(gè)性化服務(wù)的手機(jī)信息搜索引擎系統(tǒng),它結(jié)合當(dāng)前流行的Heritrix爬蟲(chóng)技術(shù)和Lucene搜索引擎框架,對(duì)本地手機(jī)信息資源搜索進(jìn)行了很好地實(shí)現(xiàn)。 本論文首先概述了搜索引擎的研究背景和工作原理,接著對(duì)Heritrix爬蟲(chóng)技術(shù)進(jìn)行了深入的研究和進(jìn)一步優(yōu)化。Heritrix爬蟲(chóng)是目前實(shí)現(xiàn)Web信息抽取的主要技術(shù)之一,具有開(kāi)源、可擴(kuò)展的優(yōu)點(diǎn),同時(shí)也存在爬取信息時(shí)速度較慢的問(wèn)題。本論文運(yùn)用ELFHash算法對(duì)Heritrix爬蟲(chóng)進(jìn)行了多線(xiàn)程優(yōu)化,實(shí)現(xiàn)了指定網(wǎng)頁(yè)精確的爬取,較好地提高了爬取網(wǎng)頁(yè)的速度。 本論文采用Lucene搜索技術(shù)作為個(gè)性化搜索引擎系統(tǒng)的搜索框架,對(duì)其索引和排序技術(shù)進(jìn)行了深入的研究,并且對(duì)其排序算法進(jìn)行了優(yōu)化。Lucene原排序算法是根據(jù)文檔中查詢(xún)的關(guān)鍵詞出現(xiàn)的次數(shù),與文檔中包含此關(guān)鍵詞次數(shù)的比例進(jìn)行結(jié)果排序,在檢索結(jié)果頁(yè)面與主題的相關(guān)度方面不夠準(zhǔn)確,不能很好地體現(xiàn)出頁(yè)面的重要性程度。本論文采用了PageRank算法對(duì)Lucene的排序算法進(jìn)行改進(jìn),通過(guò)計(jì)算用戶(hù)興趣與頁(yè)面重要性的相關(guān)度,使得排序結(jié)果更加優(yōu)化。 在此研究基礎(chǔ)上,本論文設(shè)計(jì)并實(shí)現(xiàn)了提供個(gè)性化手機(jī)信息服務(wù)的搜索引擎系統(tǒng)。根據(jù)用戶(hù)的需求分析,本論文將系統(tǒng)分為頁(yè)面爬取模塊、頁(yè)面解析模塊、信息索引和信息檢索模塊等四個(gè)模塊。其中,詳細(xì)闡述了各個(gè)模塊的設(shè)計(jì)思想和具體實(shí)現(xiàn)過(guò)程。通過(guò)對(duì)系統(tǒng)測(cè)試結(jié)果的分析,驗(yàn)證了系統(tǒng)功能,證明了系統(tǒng)的功能和性能達(dá)到了設(shè)計(jì)的要求。 最后,本論文對(duì)全文進(jìn)行了總結(jié)和展望?偨Y(jié)了本人在碩士研究生期間的工作和成果,并指出了系統(tǒng)存在的不足和進(jìn)一步工作。
[Abstract]:With the rapid development of the Internet, search engine has become an important way for people to obtain information. Compared with the traditional universal search engine, personalized search engine can provide users with specific subject search and personalized services. Based on this background, this paper designs a mobile phone information search engine system based on personalized service, which combines the current popular Heritrix crawler technology and Lucene search engine framework. The local mobile phone information resource search is well realized. This paper first summarizes the research background and working principle of the search engine, and then makes a deep research on the Heritrix crawler technology and further optimizes the .Heritrix crawler, which is one of the main technologies to realize Web information extraction, which is open source. At the same time, there is the problem of slow crawling speed. In this paper, the ELFHash algorithm is used to optimize the Heritrix crawler, which realizes the precise crawling of specified web pages, and improves the speed of crawling web pages. In this paper, the Lucene search technology is used as the search framework of the personalized search engine system, and the indexing and sorting techniques are deeply studied. The original sort algorithm of Lucene is sorted according to the number of times the keywords appear in the document and the proportion of the number of times the keywords are included in the document. The relevance between the search result page and the topic is not accurate enough to reflect the importance of the page. In this paper, the PageRank algorithm is used to improve the sorting algorithm of Lucene. By calculating the correlation between user interest and page importance, the sorting results are optimized. On the basis of this research, this paper designs and implements the search engine system which provides the personalized mobile phone information service. According to the user's demand analysis, this paper divides the system into the page crawling module and the page analysis module. Information index and information retrieval module are four modules. Among them, the design idea and implementation process of each module are described in detail. The system function is verified by analyzing the test results of the system. It is proved that the function and performance of the system meet the requirements of the design. Finally, this paper summarizes and prospects the full text, summarizes my work and achievements during the period of master's degree, and points out the shortcomings and further work of the system.
【學(xué)位授予單位】:湖北工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王非;吳慶波;楊沙洲;;Web2.0社區(qū)搜索模塊排序算法的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2009年21期

2 賈麗柯;;基于校園網(wǎng)的搜索引擎排序算法研究[J];商丘職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年02期

3 郝金隆;王成良;;原創(chuàng)優(yōu)先的搜索引擎排序算法[J];計(jì)算機(jī)工程;2008年18期

4 金祖旭;李敏波;;基于用戶(hù)反饋的搜索引擎排名算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年11期

5 潘大勝;黃小龍;;基于校園網(wǎng)的信息資源搜索引擎系統(tǒng)的設(shè)計(jì)[J];貴州工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年05期

6 韓紅芳;陳其勇;;小世界網(wǎng)絡(luò)在搜索引擎算法中的應(yīng)用[J];天津農(nóng)學(xué)院學(xué)報(bào);2006年02期

7 陳恩紅;李梁;;一種對(duì)象級(jí)搜索中的多查詢(xún)合并算法[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2008年10期

8 蔣宗禮;李憲雷;徐學(xué)可;;基于主題Hub值的元搜索[J];北京工業(yè)大學(xué)學(xué)報(bào);2009年03期

9 方志堅(jiān);張瑞林;童小素;;搜索引擎綜合分析[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年16期

10 張玉寶;;中文搜索引擎的原理及相關(guān)技術(shù)分析[J];福建電腦;2008年01期

相關(guān)會(huì)議論文 前10條

1 張健沛;李連江;楊靜;;個(gè)性化搜索引擎排序算法的研究與改進(jìn)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

2 郭鴻志;陳清才;康永燕;王曉龍;;一種基于網(wǎng)站特征識(shí)別的搜索引擎排序算法[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

3 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年

4 梁婷婷;張志強(qiáng);謝曉芹;;搜索引擎評(píng)估算法綜述[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2009年學(xué)術(shù)交流年會(huì)論文集[C];2010年

5 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

6 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

7 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

8 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

9 楊磊;束罡;牛振東;;基于引力模型的鏈接分析(英文)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

10 姚樹(shù)宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 王立群;搜索新生代[N];中國(guó)計(jì)算機(jī)報(bào);2005年

2 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年

3 周文林;搜狗3.0能否撼動(dòng)搜索市場(chǎng)[N];經(jīng)濟(jì)參考報(bào);2007年

4 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年

5 賽迪顧問(wèn)股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢(xún)中心 常燕杰;搜索,還是門(mén)戶(hù)[N];中國(guó)計(jì)算機(jī)報(bào);2005年

6 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年

7 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國(guó)經(jīng)營(yíng)報(bào);2005年

8 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年

9 本報(bào)記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國(guó)證券報(bào);2006年

10 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財(cái)經(jīng)日?qǐng)?bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

2 岑榮偉;基于用戶(hù)行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

3 李群;主題搜索引擎聚類(lèi)算法的研究[D];北京林業(yè)大學(xué);2011年

4 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

5 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

6 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

7 王昤璞;基于用戶(hù)體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

8 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

9 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

10 陳紅濤;基于搜索日志的用戶(hù)行為研究及應(yīng)用[D];北京郵電大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 李連江;個(gè)性化搜索引擎模型的研究與改進(jìn)[D];哈爾濱工程大學(xué);2008年

2 程建;一種網(wǎng)頁(yè)搜索引擎原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年

3 王春花;基于Nutch的農(nóng)業(yè)搜索引擎檢索結(jié)果排序策略的研究[D];西北農(nóng)林科技大學(xué);2010年

4 劉青偉;搜索引擎中的Pagerank排序算法研究分析[D];電子科技大學(xué);2010年

5 聞崢;基于Lucene的搜索引擎優(yōu)化[D];北京交通大學(xué);2011年

6 尉建興;基于Lucene搜索引擎的研究與應(yīng)用[D];太原理工大學(xué);2011年

7 崔頃頃;基于個(gè)性化搜索的系統(tǒng)研究與設(shè)計(jì)[D];北京交通大學(xué);2011年

8 徐財(cái)應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長(zhǎng)春理工大學(xué);2010年

9 金祖旭;基于用戶(hù)反饋的搜索引擎排名算法研究[D];復(fù)旦大學(xué);2010年

10 劉輝;搜索引擎聯(lián)邦算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn)[D];清華大學(xué);2004年



本文編號(hào):1654461

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1654461.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)78a34***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com