基于Lucene的搜索引擎的研究與實(shí)現(xiàn)
本文關(guān)鍵詞: 垂直搜索 引擎 網(wǎng)絡(luò)爬蟲 出處:《大連理工大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
【摘要】:最近這些年,有一門新興的技術(shù)正越來(lái)越多的引起人們的廣泛注意,它就是垂直搜索引擎。垂直搜索引擎建造價(jià)格便宜,而且它是一種相對(duì)有效的搜索方式。用戶可從相關(guān)網(wǎng)頁(yè)上,根據(jù)輸入的關(guān)鍵字搜索需要的消息,又可以瀏覽這些檢索出的界面。檢索界面可以被用戶打開,進(jìn)行信息的瀏覽。結(jié)果包含所有相關(guān)網(wǎng)頁(yè)在通用搜索引擎中是不可能實(shí)現(xiàn)的,即使雅虎公司的搜索結(jié)果覆蓋率也不到50%。通過(guò)這些數(shù)據(jù)可以表明,很大一部分網(wǎng)頁(yè)并沒有被搜索引擎檢測(cè)到,所以就無(wú)法對(duì)其中包含的信息加以利用。大量的信息無(wú)法為人們所有,造成了信息資源的浪費(fèi)。盡管有些搜索引擎設(shè)置了一些功能使得一些沒有檢測(cè)到的信息得到一個(gè)可以檢測(cè)的出口,即身份驗(yàn)證,但還是無(wú)法使這種現(xiàn)象得以改善。系統(tǒng)使用Eclipse和Dreamweaver作為開發(fā)環(huán)境。系統(tǒng)后臺(tái)的信息是由某網(wǎng)站提供的,經(jīng)過(guò)分析網(wǎng)站內(nèi)容,準(zhǔn)備好Heritrix的抓取清單,然后提交給Heritrix處理。網(wǎng)頁(yè)抓取到后使用HTMLParser解析,將詳細(xì)信息插入My SQL數(shù)據(jù)庫(kù),然后建立用來(lái)檢索關(guān)鍵字的詞庫(kù)和Lucene的索引,最后搭建一個(gè)Web平臺(tái),采用JSP技術(shù)對(duì)建立的索引和數(shù)據(jù)庫(kù)進(jìn)行整合,為用戶提供真正的搜索服務(wù)。
[Abstract]:In recent years, a new technology is getting more and more attention. It is the vertical search engine. Vertical search engine is cheap to build. And it's a relatively effective way of searching. Users can search for the information they need from the relevant web pages, according to the keywords they enter, and they can browse the retrieved interfaces. The retrieval interface can be opened by the user. The results include all relevant pages are not possible in the general search engine, even Yahoo's search results coverage is less than 500.These data can show that, A large part of the web pages are not detected by search engines, so they can't use the information they contain. A lot of information can't be owned by people. This creates a waste of information resources. Although some search engines set up functions that allow some undetected information to get a detectable exit, that is, authentication, The system uses Eclipse and Dreamweaver as the development environment. The information in the background of the system is provided by a website. After analyzing the content of the site, prepare the Heritrix grab list. Then it is submitted to Heritrix processing. The web page is fetched and parsed with HTMLParser, then the details are inserted into my SQL database, and then the lexicon and Lucene index used to retrieve keywords are built. Finally, a Web platform is built. JSP technology is used to integrate the index and database to provide real search service for users.
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.52;TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 余川江;;基于Lucene的垂直搜索引擎的研究與實(shí)現(xiàn)[J];經(jīng)營(yíng)管理者;2014年11期
2 孔維亭;閆宏印;;基于Lucene的自動(dòng)答疑系統(tǒng)的設(shè)計(jì)[J];電腦開發(fā)與應(yīng)用;2012年04期
3 喻金平;譚鳴;夏小云;;基于Lucene技術(shù)的垂直搜索引擎的研究[J];軟件導(dǎo)刊;2008年03期
4 陳忱;;Lucene排序算法的個(gè)性化改進(jìn)[J];科技與企業(yè);2012年02期
5 阮曙芬;;基于Lucene的全文搜索排序算法的研究與改進(jìn)[J];武漢紡織大學(xué)學(xué)報(bào);2013年06期
6 葛振國(guó);李建;何林糠;吳軍;;基于Lucene的Oracle數(shù)據(jù)庫(kù)全文檢索[J];信息技術(shù);2010年03期
7 楊元峰;趙敏涯;廖黎莉;;基于Lucene的客服知識(shí)庫(kù)系統(tǒng)結(jié)構(gòu)設(shè)計(jì)[J];福建電腦;2012年01期
8 馮宇;;基于模糊層次分析法的Lucene網(wǎng)頁(yè)排序算法研究[J];計(jì)算機(jī)與現(xiàn)代化;2011年01期
9 裴志松;;基于Lucene的畢業(yè)論文相似性檢測(cè)[J];長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2013年04期
10 陳艷春;李雙平;;基于Lucene的企業(yè)級(jí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2007年08期
相關(guān)會(huì)議論文 前2條
1 朱高平;樂(lè)嘉錦;;基于刻面分類和Lucene架構(gòu)的Web服務(wù)發(fā)現(xiàn)技術(shù)的研究[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
2 劉壽強(qiáng);;基于Lucene的分級(jí)鑒權(quán)企業(yè)搜索引擎研究與設(shè)計(jì)[A];第二十一次全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2006年
相關(guān)碩士學(xué)位論文 前10條
1 顧盛;基于Lucene和Heritrix的小型主題搜索引擎的研究及實(shí)現(xiàn)[D];西安電子科技大學(xué);2015年
2 李樂(lè);基于Lucene的企業(yè)級(jí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
3 張錫川;基于Lucene的云平臺(tái)學(xué)術(shù)搜索引擎[D];北京工業(yè)大學(xué);2015年
4 張東方;基于Lucene網(wǎng)頁(yè)排名改進(jìn)的分布式搜索系統(tǒng)[D];西安電子科技大學(xué);2014年
5 宏樸;基于Lucene的搜索引擎的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2016年
6 于雪麗;LUCENE中文分詞在科研文檔全文檢索系統(tǒng)的應(yīng)用研究[D];青島大學(xué);2011年
7 孫靜;基于Lucene的手機(jī)查詢軟件的研究與實(shí)現(xiàn)[D];重慶大學(xué);2014年
8 文義;基于LUCENE的群體個(gè)性化搜索引擎研究[D];武漢理工大學(xué);2010年
9 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
10 花潔;基于Lucene的搜索引擎應(yīng)用與研究[D];湖北工業(yè)大學(xué);2009年
,本文編號(hào):1498300
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1498300.html