分布式垂直搜索引擎的研究與設計
本文關鍵詞:分布式垂直搜索引擎的研究與設計 出處:《電子科技大學》2016年碩士論文 論文類型:學位論文
更多相關文章: 海量數(shù)據(jù) 爬蟲 索引 Hadoop Noaql Hbase
【摘要】:面對如今互聯(lián)網(wǎng)的海量數(shù)據(jù),如何快速準確的獲取自己想要的信息成為一個亟待解決的問題。百度, Google等全網(wǎng)搜索引擎通過全網(wǎng)爬蟲獲取網(wǎng)頁信息,根據(jù)用戶不同查詢需求返回結果以滿足用戶的廣度查詢需求。而對于某些垂直網(wǎng)站的深度查詢,需了解具體網(wǎng)站結構,才能對其進行特殊解析以獲取其中數(shù)據(jù),這方面全網(wǎng)爬蟲往往“無能為力”。所以針對客戶需求,高效獲取垂直網(wǎng)站里的數(shù)據(jù)信息的研究就變得很有必要。為解決上述問題,本文設計并實現(xiàn)了一個分布式垂直搜索引擎,以滿足用戶對垂直網(wǎng)站信息的深度需求,并對該搜索引擎中建立索引和檢索過程的性能進行了詳細的測試。并對檢索中的中文分詞算法進行了研究和優(yōu)化,中文分詞算法的優(yōu)劣,是影響一個搜索引擎查詢效率的最重要因素之一。對搜索引擎進行功能測試表明,本系統(tǒng)能夠每天定時通過基于Hadoop的分布式多線程爬蟲采集數(shù)據(jù),并通過redis這一基于內存的數(shù)據(jù)庫存儲需要解析的URL數(shù)據(jù),然后存儲詳細商品數(shù)據(jù)到Hbase數(shù)據(jù)庫中。當數(shù)據(jù)存儲到Hbase后,SolrCloud集群對Hbase中存儲的商品數(shù)據(jù)的指定屬性建立索引,用戶請求查詢時,SolrCloud通過分布式檢索返回結果。此外,對于搜索出的商品提供了商品比較及商品來源追蹤,所有結點上的爬蟲進程均能使用zookeeper進行監(jiān)控,提高系統(tǒng)的安全性。對索引檢索模塊的性能測試可以得出不同分片的SolrCloud集群對索引檢索性能的影響,進而能夠根據(jù)不同的業(yè)務應用場景確定其分片數(shù)。此外,對中文分詞算法的性能測試表明,改進后中文分詞算法在準確率和召回率上都有一定提高。
[Abstract]:Facing the massive data of Internet nowadays, how to get the information we want quickly and accurately becomes a problem to be solved urgently. Baidu. The whole web search engine such as Google obtains the web page information through the whole web crawler, returns the result according to the user's different query demand to satisfy the user's breadth query demand, and the depth query for some vertical websites. Need to know specific website structure, can undertake special parse to it in order to obtain data, this respect whole web crawler is often "powerless". In order to solve the above problems, this paper designs and implements a distributed vertical search engine. In order to meet the users' demand for the depth of vertical website information, the performance of the indexing and retrieval process in the search engine is tested in detail, and the Chinese word segmentation algorithm in the search engine is studied and optimized. The advantages and disadvantages of Chinese word segmentation algorithm is one of the most important factors that affect the query efficiency of a search engine. This system can collect data every day through distributed multithread crawler based on Hadoop, and store URL data which need to be parsed through redis, which is a memory-based database. The detailed commodity data is then stored into the Hbase database. When the data is stored in the Hbase, the Solr Cloud cluster indexes the specified attributes of the commodity data stored in the Hbase. When the user requests the query, SolrCloud returns the results through distributed retrieval. In addition, it provides commodity comparison and commodity source tracking for the items searched. All crawler processes on all nodes can be monitored using zookeeper. Improve the security of the system. The performance test of index retrieval module can find out the impact of different sliced SolrCloud cluster on index retrieval performance. In addition, the performance test of Chinese word segmentation algorithm shows that the improved Chinese word segmentation algorithm has higher accuracy and recall rate.
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
【相似文獻】
相關期刊論文 前10條
1 楊堅爭;李朝平;;垂直搜索引擎及其應用[J];電子商務;2006年10期
2 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學研究;2006年12期
3 嚴宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關鍵技術的探討[J];中國科技信息;2007年05期
4 胡華梁;何進;鐘元生;;圖書垂直搜索引擎的設計[J];計算機與現(xiàn)代化;2007年08期
5 鄭凱明;李義杰;;垂直搜索引擎及其應用價值[J];信息技術;2008年04期
6 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學學報;2008年03期
7 許鑫;黃仲清;;垂直搜索引擎應用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術;2009年02期
8 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應用研究[J];計算機系統(tǒng)應用;2009年07期
9 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時代;2009年23期
10 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡信息;2009年11期
相關會議論文 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學會、河北省計算機學會、河北省自動化學會、河北省人工智能學會、河北省計算機輔助設計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學術年會論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
4 毛華揚;劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年
相關重要報紙文章 前10條
1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠嗎?[N];中國經(jīng)營報;2006年
2 王艷;垂直搜索引擎市場看好[N];中國旅游報;2000年
3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報海外版;2000年
4 楊國民;國內生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟日報;2007年
5 本報記者 王曉雁;垂直搜索引擎著作權之爭未破題[N];法制日報;2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術情報研究所 周峻松;用開源軟件建垂直搜索引擎[N];計算機世界;2010年
7 中新;生意寶推“生意搜”攪局電子商務搜索市場[N];經(jīng)理日報;2008年
8 源訊 編譯;搜索巨頭的下一步[N];計算機世界;2006年
9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計算機報;2000年
10 ;沱沱網(wǎng)“亮劍”國際消費電子博覽會 專業(yè)服務帶來B2B差異化變革[N];中國貿(mào)易報;2007年
相關博士學位論文 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關鍵技術研究[D];浙江大學;2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術大學;2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年
5 王桂紅;農(nóng)產(chǎn)品市場價格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學;2013年
相關碩士學位論文 前10條
1 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應用[D];大連理工大學;2009年
2 關小敏;垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2012年
3 吳燕瑋;基于行業(yè)知識垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2012年
4 黃興財;大學生職位垂直c\索引擎的設計與實現(xiàn)[D];電子科技大學;2015年
5 陳龍飛;垂直搜索引擎在煙草行業(yè)的研究與應用[D];浙江理工大學;2016年
6 林祖新;視頻垂直搜索引擎中信息抽取與存儲系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2013年
7 張亞鳳;垂直搜索引擎中關鍵技術的研究[D];長春工業(yè)大學;2016年
8 桂佳;招聘信息垂直搜索引擎系統(tǒng)設計與實現(xiàn)[D];華中科技大學;2014年
9 韓志強;基于Hadoop的分布式藏文新聞網(wǎng)站垂直搜索引擎設計與實現(xiàn)[D];中央民族大學;2016年
10 吳昊;垂直搜索引擎關鍵技術研究及分布式實現(xiàn)[D];東南大學;2016年
,本文編號:1358970
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1358970.html