基于Hadoop的分布式商品搜索引擎設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Hadoop的分布式商品搜索引擎設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,在電商領(lǐng)域中各種各樣的網(wǎng)購平臺(tái)發(fā)展迅速,網(wǎng)上購物已成為許多人選購商品的基本途徑。同時(shí)隨著C2C經(jīng)營(yíng)模式的普及,越來越多的人紛紛在網(wǎng)上開店,網(wǎng)購平臺(tái)上每時(shí)每刻都有新商家入駐,商品上下架,伴隨著海量的商品信息更新。如何實(shí)時(shí)準(zhǔn)確地收集并更新大量數(shù)據(jù),怎樣讓消費(fèi)者在網(wǎng)購平臺(tái)快速找到自己心目中的商品,這些問題使網(wǎng)購平臺(tái)所使用的商品搜索引擎面臨著巨大挑戰(zhàn)。目前市上的搜索引擎很多都采用相同的架構(gòu)——集中式架構(gòu),即搜索引擎所有構(gòu)建都集中搭建在一臺(tái)機(jī)器上,導(dǎo)致引擎對(duì)單節(jié)點(diǎn)機(jī)器硬件設(shè)備要求很高,而且系統(tǒng)的穩(wěn)定性、移植性都很難得到保證。為了克服這個(gè)缺點(diǎn)就不得不采購極為昂貴的高性能計(jì)算機(jī),這對(duì)搜索服務(wù)提供商來說是一筆較大的資金投入。本文在電商門戶網(wǎng)站的平臺(tái)上提出了一個(gè)在電商垂直領(lǐng)域上的分布式商品搜索引擎(下文簡(jiǎn)稱引擎)。該引擎包含建立索引,查詢數(shù)據(jù),集群管理,服務(wù)管理,集群監(jiān)控等功能,不包括信息數(shù)據(jù)爬取步驟。該分布式搜索引擎預(yù)計(jì)為國內(nèi)某網(wǎng)購平臺(tái)提供查詢服務(wù),它由多個(gè)團(tuán)隊(duì)人員協(xié)同設(shè)計(jì)開發(fā)完成。相比現(xiàn)有的眾多搜索引擎,本文提出的基于Hadoop的分布式商品搜索引擎能夠在消耗更少機(jī)器資源的情況下提供更多數(shù)量級(jí)(數(shù)十億商品)的快速檢索服務(wù)。針對(duì)某些數(shù)量巨大,被高頻率反復(fù)搜索的商品,本文也提出了截?cái)嗨饕人枷?完美的解決了因商品倒排鏈過長(zhǎng)而導(dǎo)致的檢索緩慢難題,同時(shí)該產(chǎn)品有很好的擴(kuò)展性,能支持多種搜索業(yè)務(wù),產(chǎn)品原始文檔Key-value格式的字段設(shè)計(jì)使其不但能為電商門戶網(wǎng)站提供高效的檢索服務(wù),還能作為通用的網(wǎng)頁搜索引擎使用。
【關(guān)鍵詞】:垂直搜索 索引 搜索引擎 分布式計(jì)算 商品搜索
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.52;TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 緒論9-14
- 1.1 商品搜索引擎搜索簡(jiǎn)介9
- 1.2 商品搜索國內(nèi)外研究現(xiàn)狀9-13
- 1.3 本文組織結(jié)構(gòu)13-14
- 第2章 需求分析與總體設(shè)計(jì)14-25
- 2.1 需求分析14-18
- 2.1.1 產(chǎn)品需求背景14-15
- 2.1.2 產(chǎn)品目標(biāo)15
- 2.1.3 產(chǎn)品用戶群體15-16
- 2.1.4 產(chǎn)品功能需求16-17
- 2.1.5 產(chǎn)品非功能需求17-18
- 2.2 總體設(shè)計(jì)18-23
- 2.2.1 引擎基本原理18-19
- 2.2.2 引擎功能結(jié)構(gòu)19-20
- 2.2.3 引擎數(shù)據(jù)分配機(jī)制20-21
- 2.2.4 引擎檢索機(jī)制21
- 2.2.5 引擎數(shù)據(jù)流機(jī)制21-22
- 2.2.6 分布式索引22-23
- 2.3 本章小結(jié)23-25
- 第3章 商品搜索引擎模塊設(shè)計(jì)25-68
- 3.1 引擎詞典設(shè)計(jì)25-28
- 3.1.1 詞典結(jié)構(gòu)25-26
- 3.1.2 多模式串匹配算法26-28
- 3.2 正排索引28-40
- 3.2.1 正排簡(jiǎn)介28
- 3.2.2 索引結(jié)構(gòu)28-32
- 3.2.3 索引建立流程32
- 3.2.4 數(shù)據(jù)查詢32-33
- 3.2.5 正排讀取流程33-34
- 3.2.6 索引更新34
- 3.2.7 正排設(shè)計(jì)34-38
- 3.2.8 索引建立交互流程38-40
- 3.3 倒排索引40-49
- 3.3.1 倒排簡(jiǎn)介40
- 3.3.2 倒排結(jié)構(gòu)40-43
- 3.3.3 倒排壓縮43-44
- 3.3.4 截?cái)嗨饕?/span>44
- 3.3.5 分布式索引建立44-49
- 3.4 參數(shù)解析模塊49-58
- 3.4.1 模塊簡(jiǎn)介49-50
- 3.4.2 設(shè)計(jì)目標(biāo)50
- 3.4.3 參數(shù)形式50-51
- 3.4.4 設(shè)計(jì)思路51-52
- 3.4.5 詳細(xì)接口52-54
- 3.4.6 流程設(shè)計(jì)54-55
- 3.4.7 配置舉例55-56
- 3.4.8 參數(shù)解析56-58
- 3.5 排序模塊58-67
- 3.5.1 排序簡(jiǎn)介58-59
- 3.5.2 設(shè)計(jì)原則59-60
- 3.5.3 詳細(xì)設(shè)計(jì)60-67
- 3.5.4 分布式排序67
- 3.6 本章小結(jié)67-68
- 第4章 系統(tǒng)測(cè)試與分析68-75
- 4.1 實(shí)驗(yàn)環(huán)境68
- 4.2 查詢功能測(cè)試68-72
- 4.2.1 正常查詢68-70
- 4.2.2 容錯(cuò)查詢70-71
- 4.2.3 過濾查詢71-72
- 4.3 測(cè)試數(shù)據(jù)分析72-73
- 4.4 本章小結(jié)73-75
- 結(jié)論75-76
- 參考文獻(xiàn)76-80
- 致謝80-81
- 個(gè)人簡(jiǎn)歷81
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 逄利華;張錦春;;基于Hadoop的分布式數(shù)據(jù)庫系統(tǒng)[J];辦公自動(dòng)化;2014年05期
2 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期
3 劉爾凱;崔振東;;基于HADOOP技術(shù) 實(shí)現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期
4 鄒群;;一種基于Hadoop的數(shù)字圖書存儲(chǔ)系統(tǒng)設(shè)計(jì)方案[J];黑龍江史志;2014年01期
5 諶章義;畢偉;向萬紅;王國安;吳愛國;;基于Hadoop的海量電費(fèi)數(shù)據(jù)處理模型[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年05期
6 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動(dòng)化;2014年06期
7 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計(jì)算機(jī)與網(wǎng)絡(luò);2013年08期
8 王峰;雷葆華;;Hadoop分布式文件系統(tǒng)的模型分析[J];電信科學(xué);2010年12期
9 蘇小會(huì);何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進(jìn)[J];電子設(shè)計(jì)工程;2012年22期
10 林偉偉;;一種改進(jìn)的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年01期
中國重要報(bào)紙全文數(shù)據(jù)庫 前8條
1 本報(bào)記者 郭濤;機(jī)器大數(shù)據(jù)也離不開Hadoop[N];中國計(jì)算機(jī)報(bào);2013年
2 本報(bào)記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報(bào);2012年
3 本報(bào)記者 鄒大斌;Hadoop一體機(jī)降低大數(shù)據(jù)門檻[N];計(jì)算機(jī)世界;2012年
4 孫定;云計(jì)算、大數(shù)據(jù)與Hadoop[N];計(jì)算機(jī)世界;2011年
5 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計(jì)算機(jī)世界;2012年
6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年
7 波波 編譯;Hadoop、Web 2.0為磁帶帶來新商機(jī)[N];網(wǎng)絡(luò)世界;2013年
8 本報(bào)記者 郭濤;讓更多人能夠使用Hadoop[N];中國計(jì)算機(jī)報(bào);2012年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 宋亞奇;云平臺(tái)下電力設(shè)備監(jiān)測(cè)大數(shù)據(jù)存儲(chǔ)優(yōu)化與并行處理技術(shù)研究[D];華北電力大學(xué)(北京);2016年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉君;基于Hadoop技術(shù)的氣象數(shù)據(jù)采集及數(shù)據(jù)挖掘平臺(tái)的研究[D];天津理工大學(xué);2015年
2 譚旭;基于物流數(shù)據(jù)的快遞網(wǎng)絡(luò)分析與建模[D];浙江大學(xué);2015年
3 趙偉;基于Hadoop的數(shù)據(jù)挖掘算法并行化研究[D];西南交通大學(xué);2015年
4 趙振崇;基于Hadoop的決策樹挖掘算法的研究[D];蘭州大學(xué);2015年
5 郭凱振;基于Hadoop的分布式計(jì)算系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連海事大學(xué);2015年
6 白亮;基于Hadoop的民航高價(jià)值旅客發(fā)現(xiàn)方法研究[D];中國民航大學(xué);2015年
7 席屏;基于Hadoop的視頻大數(shù)據(jù)智能預(yù)警系統(tǒng)應(yīng)用研究[D];江蘇科技大學(xué);2015年
8 董立明;基于HADOOP的分布式推薦引擎[D];復(fù)旦大學(xué);2013年
9 陸藝達(dá);基于Hadoop分布式計(jì)算框架的垃圾短信群發(fā)檢測(cè)系統(tǒng)[D];復(fù)旦大學(xué);2013年
10 沈德利;基于Hadoop的密文檢索關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2014年
本文關(guān)鍵詞:基于Hadoop的分布式商品搜索引擎設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):501335
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/501335.html