基于Nutch的圖情博客搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)
本文選題:Lucene + Nutch; 參考:《鄭州大學(xué)》2011年碩士論文
【摘要】:隨著Web2.0理念和技術(shù)的興起,全球互聯(lián)網(wǎng)用戶享受到了豐富多樣的交互性信息服務(wù),博客正是這種交互性信息服務(wù)的典型代表。在這種時(shí)代背景下,圖書情報(bào)學(xué)領(lǐng)域的學(xué)生、研究人員等紛紛開設(shè)博客進(jìn)行信息交流。然而,圖情博客分散、博文質(zhì)量參差不齊的現(xiàn)狀給界內(nèi)人士的使用帶來了不便,雖然Google博客搜索、百度博客搜索等相關(guān)的主題搜索引擎已經(jīng)解決了一些問題,但是仍舊不能滿足圖情界用戶的需求。本文就是針對這一問題嘗試構(gòu)建圖情博客搜索引擎,以滿足圖情用戶的需求。本文首先對搜索引擎相關(guān)技術(shù)和圖情博客進(jìn)行分析,其次引入Nutch這一開源搜索引擎并基于Nutch制定了圖情博客搜索引擎的設(shè)計(jì)方案,再次依據(jù)該設(shè)計(jì)方案開發(fā)出相應(yīng)的主題搜索引擎,最后以實(shí)驗(yàn)的方法對該主題搜索引擎的性能進(jìn)行評估。本文各章節(jié)的主要內(nèi)容如下: 1緒論。本章介紹了論文的選題背景、選題意義、國內(nèi)外研究現(xiàn)狀、所采用的研究方法和創(chuàng)新之處。 2搜索引擎相關(guān)技術(shù)及圖情博客分析。本章首先分析了搜索引擎、主題搜索引擎的運(yùn)行原理,指出二者的主要區(qū)別在于信息采集模塊和網(wǎng)頁內(nèi)容解析模塊兩部分,主題搜索引擎改進(jìn)了網(wǎng)絡(luò)爬蟲模塊和并在網(wǎng)頁內(nèi)容解析模塊增加了主題詞庫進(jìn)行信息過濾。其次從博客站點(diǎn)結(jié)構(gòu)、博客頁面內(nèi)容、博客之間鏈接結(jié)構(gòu)三方面對圖情博客進(jìn)行分析,以增加對圖情博客的全面認(rèn)識。 3 Nutch簡介及Nutch系統(tǒng)的運(yùn)行環(huán)境配置與運(yùn)行。本章首先介紹了開源搜索引擎Nutch的基本情況和框架結(jié)構(gòu),對Nutch有個(gè)初步的認(rèn)識。然后配置Nutch系統(tǒng)的運(yùn)行環(huán)境并詳細(xì)闡釋其運(yùn)行流程,對Nutch的運(yùn)行原理和詳細(xì)結(jié)構(gòu)有進(jìn)一步的認(rèn)識。 4基于Nutch的圖情博客搜索引擎的設(shè)計(jì)。本章依據(jù)軟件工程的思想,首先分析搜索引擎系統(tǒng)要實(shí)現(xiàn)的目標(biāo)、要解決的問題以及可行性,然后通過用例圖(Use Case Diagram)和序列圖(Sequence Diagram)對系統(tǒng)的用戶需求進(jìn)行闡述,最后給出了系統(tǒng)的總體設(shè)計(jì)方案和詳細(xì)設(shè)計(jì)方案。 5基于Nutch的圖情博客搜索引擎的核心模塊實(shí)現(xiàn)。本章對詳細(xì)設(shè)計(jì)方案中的三個(gè)核心模塊進(jìn)行實(shí)現(xiàn)。首先是借助圖書情報(bào)學(xué)的信息檢索理論和實(shí)踐對主題資源發(fā)現(xiàn)模塊進(jìn)行實(shí)現(xiàn),其次是通過軟件分析對爬蟲模塊的采集策略進(jìn)行實(shí)現(xiàn),最后是根據(jù)用戶需求對檢索模塊進(jìn)行改進(jìn)。 6實(shí)驗(yàn)測試分析與結(jié)論。本章首先設(shè)定了一系列參數(shù)并依據(jù)這些參數(shù)進(jìn)行了六輪實(shí)驗(yàn)測試,然后對測試結(jié)果進(jìn)行了分析。最后,筆者總結(jié)了圖情博客搜索引擎的特點(diǎn)及不足之處,并對以后的改進(jìn)工作做出了展望。
[Abstract]:With the rise of Web2.0 concept and technology, Internet users worldwide enjoy a variety of interactive information services, blog is the typical representative of this interactive information service. Against this background, students and researchers in the field of library and information science have started blogs to exchange information. However, the scattered picture blog, the uneven quality of blog has brought inconvenience to the use of people in the field, although Google blog search, Baidu blog search and other related theme search engines have solved some problems. But still can not meet the needs of users. This paper attempts to build a blog search engine to meet the needs of users. In this paper, we first analyze the related technologies of search engine and map blog, then introduce Nutch, an open source search engine, and work out the design scheme of map blog search engine based on Nutch. At last, the performance of the theme search engine is evaluated by the experimental method. The main contents of each chapter are as follows: 1 introduction. This chapter introduces the background, significance, domestic and international research status, research methods and innovations. 2 search engine related technology and map blog analysis. This chapter first analyzes the operation principle of search engine and theme search engine, and points out that the main difference between them lies in two parts: information collection module and web page content analysis module. The topic search engine improves the web crawler module and adds the topic thesaurus to the web content parsing module for information filtering. Secondly, from the blog site structure, blog page content, blog links between the three aspects of the blog analysis, in order to increase the overall understanding of the picture blog. Introduction of Nutch and configuration and operation of Nutch system. This chapter first introduces the basic situation and framework of open source search engine Nutch, and has a preliminary understanding of Nutch. Then configure the running environment of Nutch system and explain its running flow in detail, and have a further understanding of the operation principle and detailed structure of Nutch. 4 the design of blog search engine based on Nutch. According to the idea of software engineering, this chapter first analyzes the goal, the problem and the feasibility of the search engine system, and then through use Case Diagrams and sequence Diagrams, the user needs of the system are expounded. Finally, the overall design scheme and detailed design scheme of the system are given. 5 the core module of blog search engine based on Nutch. In this chapter, three core modules in the detailed design scheme are implemented. Firstly, it implements the topic resource discovery module with the help of the information retrieval theory and practice of library and information science; secondly, it implements the crawler module's acquisition strategy through software analysis; finally, it improves the retrieval module according to the user's demand. 6 Experimental analysis and conclusion. In this chapter, a series of parameters are set up and six rounds of experimental tests are carried out according to these parameters, and then the test results are analyzed. Finally, the author summarizes the features and shortcomings of blog search engine, and makes a prospect for future improvement.
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:G250.73
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2009年07期
2 張斌;周爾寧;;基于Nutch的分布式紡織垂直搜索引擎研究[J];電腦知識與技術(shù);2009年21期
3 吳敏琦;丁岳偉;;基于Nutch的XML網(wǎng)站全文搜索引擎實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2008年15期
4 徐飛;孫勁光;;中文分詞切分技術(shù)研究[J];計(jì)算機(jī)工程與科學(xué);2008年05期
5 申晉;;基于Lucene和Nutch的林業(yè)垂直搜索引擎的研建[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2008年04期
6 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計(jì)算機(jī)時(shí)代;2007年01期
7 劉高原;何偉娜;鄭浩;劉覺夫;;Nutch0.9中二分法中文分詞的實(shí)現(xiàn)[J];計(jì)算機(jī)時(shí)代;2009年04期
8 趙景明;張福學(xué);;國外圖書情報(bào)學(xué)博客的定量分析[J];圖書館理論與實(shí)踐;2008年05期
9 劉高原;張國平;;基于Nutch的搜索引擎技術(shù)[J];平頂山學(xué)院學(xué)報(bào);2008年05期
10 周鵬;吳華瑞;趙春江;楊寶祝;朱華吉;;基于Nutch農(nóng)業(yè)搜索引擎的研究與設(shè)計(jì)[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年03期
相關(guān)碩士學(xué)位論文 前10條
1 侯震宇;主題型搜索引擎的研究與實(shí)現(xiàn)[D];中國科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
2 董祥千;搜索引擎設(shè)計(jì)分析與結(jié)果聚類改進(jìn)[D];電子科技大學(xué);2007年
3 劉強(qiáng)國;主題搜索引擎設(shè)計(jì)與研究[D];電子科技大學(xué);2007年
4 葉勤勇;基于URL規(guī)則的聚焦爬蟲及其應(yīng)用[D];浙江大學(xué);2007年
5 蘇曉珂;基于Nutch的主題爬蟲研究與實(shí)現(xiàn)[D];昆明理工大學(xué);2007年
6 胡曉博;面向特定領(lǐng)域的專業(yè)搜索引擎的架構(gòu)與實(shí)現(xiàn)方法[D];哈爾濱工程大學(xué);2007年
7 黃波;主題搜索引擎的研究與應(yīng)用[D];成都理工大學(xué);2007年
8 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年
9 常慶;風(fēng)險(xiǎn)主題搜索引擎相關(guān)技術(shù)的研究與應(yīng)用[D];西北大學(xué);2008年
10 張弛;基于WEB服務(wù)的空間信息專業(yè)搜索引擎的應(yīng)用研究[D];廣西大學(xué);2008年
,本文編號:1879236
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1879236.html