一個垂直搜索系統(tǒng)的設計與實現(xiàn)
發(fā)布時間:2018-04-25 20:30
本文選題:垂直搜索 + 主題爬蟲; 參考:《中山大學》2012年碩士論文
【摘要】:當前互聯(lián)網(wǎng)中傳統(tǒng)的通用搜索引擎服務商提供給用戶搜索水平的海量信息,它的優(yōu)點就是能搜索到比較全面的信息,但是由于范圍過廣,很難兼顧搜索的準確度,而且當用戶需要某一領(lǐng)域行業(yè)信息時,通用搜索引擎更不能較好地滿足要求,這時,就可以借助面向領(lǐng)域的垂直搜索引擎,該類搜索引擎基于某一特定領(lǐng)域或者行業(yè),,對其中的信息進行深度加工,提供給用戶更加準確的信息。 本文以人們對當前流行的平板電腦搜索需求為背景,研究和分析了垂直搜索引擎的關(guān)鍵技術(shù),設計并實現(xiàn)一個平板電腦領(lǐng)域的垂直搜索系統(tǒng)。文章首先分析了垂直搜索引擎中的主題爬蟲、信息抽取以及全文檢索等核心技術(shù),尤其是索引技術(shù)中的倒排索引以及Lucene開源全文檢索工具包。然后重點分析中文分詞這另一關(guān)鍵技術(shù),包括中文分詞的常用方法和算法;谧址ヅ浞衷~這一方法,在建立了平板電腦領(lǐng)域的基本詞典之后,采用基于前綴的逐字最大匹配算法,最終設計和實現(xiàn)了適合平板電腦領(lǐng)域的中文自動分詞組件,并實現(xiàn)了Lucene分詞器接口。將其與其他一些開源的分詞系統(tǒng)相比較的結(jié)果表明,在該領(lǐng)域內(nèi),該中文分詞組件的切分詞準確度較好。 基于這些關(guān)鍵理論和技術(shù),本文先對待實現(xiàn)的系統(tǒng)進行了總體設計,包括功能模塊劃分、采用的架構(gòu)、開發(fā)技術(shù)和環(huán)境。最后是系統(tǒng)的詳細設計和實現(xiàn),采用UML設計分析技術(shù)以及J2EE三層架構(gòu)思想,較為詳細地論述了利用Lucene來構(gòu)建垂直搜索系統(tǒng)的整個設計和實現(xiàn)過程。通過本系統(tǒng)與傳統(tǒng)搜索引擎在平板電腦產(chǎn)品上的搜索進行比較,可以看出本系統(tǒng)在搜索結(jié)果的查準度上具有一定的直觀優(yōu)勢。
[Abstract]:At present, the traditional universal search engine service provider in the Internet provides users with a large amount of information at the level of search. Its advantage is that it can search more comprehensive information, but because of its wide scope, it is difficult to take into account the accuracy of the search. And when users need industry information in a certain field, the general search engine can not meet the requirements better. In this case, we can use the vertical search engine of the domain, which is based on a specific field or industry. The information is further processed to provide users with more accurate information. In this paper, the key technology of vertical search engine is studied and analyzed, and a vertical search system in the field of tablet computer is designed and implemented under the background of people's demand for popular tablet computer search. This paper first analyzes the core technologies of vertical search engine, such as topic crawler, information extraction and full-text retrieval, especially inverted index and Lucene open source full-text retrieval toolkit. Then it analyzes the other key technology of Chinese word segmentation, including the common methods and algorithms of Chinese word segmentation. Based on the method of string matching word segmentation, after establishing the basic dictionary of tablet computer field, the Chinese automatic word segmentation component suitable for tablet computer domain is designed and implemented by using the word for word maximum matching algorithm based on prefix. The interface of Lucene word Segmentation is realized. Compared with other open source word segmentation systems, the results show that the segmentation accuracy of the Chinese word segmentation component is good in this field. Based on these key theories and technologies, this paper first introduces the overall design of the system, including functional module partition, architecture, development technology and environment. Finally, the system is designed and implemented in detail. The whole design and implementation process of vertical search system based on Lucene is discussed in detail by using UML design and analysis technology and J2EE three-tier architecture. Through the comparison between this system and the traditional search engine on the tablet computer products, we can see that this system has some intuitive advantages in the search result checking degree.
【學位授予單位】:中山大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前10條
1 吳雅娟,柳培林 ,丁子睿;基于統(tǒng)計分詞的中文文本分類系統(tǒng)[J];電腦知識與技術(shù);2005年11期
2 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期
3 曹桂宏,何丕廉,吳光遠,聶頌;中文分詞對中文信息檢索系統(tǒng)性能的影響[J];計算機工程與應用;2003年19期
4 劉遷;賈惠波;;中文信息處理中自動分詞技術(shù)的研究與展望[J];計算機工程與應用;2006年03期
5 李晶;陳恩紅;;Web信息抽取[J];計算機科學;2003年06期
6 印鑒,陳憶群,張鋼;搜索引擎技術(shù)研究與發(fā)展[J];計算機工程;2005年14期
7 周登朋;謝康林;;Lucene搜索引擎[J];計算機工程;2007年18期
8 邵輝;李芳;;基于樹模型算法的動態(tài)網(wǎng)頁信息抽取研究和實現(xiàn)[J];計算機應用與軟件;2007年10期
9 劉暢;;綜合搜索引擎與垂直搜索引擎的比較研究[J];情報科學;2007年01期
10 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學研究;2006年12期
相關(guān)碩士學位論文 前1條
1 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學;2007年
本文編號:1802844
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1802844.html
最近更新
教材專著