天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Hadoop的分布式商品搜索引擎設(shè)計與實現(xiàn)

發(fā)布時間:2017-06-30 09:08

  本文關(guān)鍵詞:基于Hadoop的分布式商品搜索引擎設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:近年來,在電商領(lǐng)域中各種各樣的網(wǎng)購平臺發(fā)展迅速,網(wǎng)上購物已成為許多人選購商品的基本途徑。同時隨著C2C經(jīng)營模式的普及,越來越多的人紛紛在網(wǎng)上開店,網(wǎng)購平臺上每時每刻都有新商家入駐,商品上下架,伴隨著海量的商品信息更新。如何實時準確地收集并更新大量數(shù)據(jù),怎樣讓消費者在網(wǎng)購平臺快速找到自己心目中的商品,這些問題使網(wǎng)購平臺所使用的商品搜索引擎面臨著巨大挑戰(zhàn)。目前市上的搜索引擎很多都采用相同的架構(gòu)——集中式架構(gòu),即搜索引擎所有構(gòu)建都集中搭建在一臺機器上,導(dǎo)致引擎對單節(jié)點機器硬件設(shè)備要求很高,而且系統(tǒng)的穩(wěn)定性、移植性都很難得到保證。為了克服這個缺點就不得不采購極為昂貴的高性能計算機,這對搜索服務(wù)提供商來說是一筆較大的資金投入。本文在電商門戶網(wǎng)站的平臺上提出了一個在電商垂直領(lǐng)域上的分布式商品搜索引擎(下文簡稱引擎)。該引擎包含建立索引,查詢數(shù)據(jù),集群管理,服務(wù)管理,集群監(jiān)控等功能,不包括信息數(shù)據(jù)爬取步驟。該分布式搜索引擎預(yù)計為國內(nèi)某網(wǎng)購平臺提供查詢服務(wù),它由多個團隊人員協(xié)同設(shè)計開發(fā)完成。相比現(xiàn)有的眾多搜索引擎,本文提出的基于Hadoop的分布式商品搜索引擎能夠在消耗更少機器資源的情況下提供更多數(shù)量級(數(shù)十億商品)的快速檢索服務(wù)。針對某些數(shù)量巨大,被高頻率反復(fù)搜索的商品,本文也提出了截斷索引等思想,完美的解決了因商品倒排鏈過長而導(dǎo)致的檢索緩慢難題,同時該產(chǎn)品有很好的擴展性,能支持多種搜索業(yè)務(wù),產(chǎn)品原始文檔Key-value格式的字段設(shè)計使其不但能為電商門戶網(wǎng)站提供高效的檢索服務(wù),還能作為通用的網(wǎng)頁搜索引擎使用。
【關(guān)鍵詞】:垂直搜索 索引 搜索引擎 分布式計算 商品搜索
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.52;TP391.3
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第1章 緒論9-14
  • 1.1 商品搜索引擎搜索簡介9
  • 1.2 商品搜索國內(nèi)外研究現(xiàn)狀9-13
  • 1.3 本文組織結(jié)構(gòu)13-14
  • 第2章 需求分析與總體設(shè)計14-25
  • 2.1 需求分析14-18
  • 2.1.1 產(chǎn)品需求背景14-15
  • 2.1.2 產(chǎn)品目標15
  • 2.1.3 產(chǎn)品用戶群體15-16
  • 2.1.4 產(chǎn)品功能需求16-17
  • 2.1.5 產(chǎn)品非功能需求17-18
  • 2.2 總體設(shè)計18-23
  • 2.2.1 引擎基本原理18-19
  • 2.2.2 引擎功能結(jié)構(gòu)19-20
  • 2.2.3 引擎數(shù)據(jù)分配機制20-21
  • 2.2.4 引擎檢索機制21
  • 2.2.5 引擎數(shù)據(jù)流機制21-22
  • 2.2.6 分布式索引22-23
  • 2.3 本章小結(jié)23-25
  • 第3章 商品搜索引擎模塊設(shè)計25-68
  • 3.1 引擎詞典設(shè)計25-28
  • 3.1.1 詞典結(jié)構(gòu)25-26
  • 3.1.2 多模式串匹配算法26-28
  • 3.2 正排索引28-40
  • 3.2.1 正排簡介28
  • 3.2.2 索引結(jié)構(gòu)28-32
  • 3.2.3 索引建立流程32
  • 3.2.4 數(shù)據(jù)查詢32-33
  • 3.2.5 正排讀取流程33-34
  • 3.2.6 索引更新34
  • 3.2.7 正排設(shè)計34-38
  • 3.2.8 索引建立交互流程38-40
  • 3.3 倒排索引40-49
  • 3.3.1 倒排簡介40
  • 3.3.2 倒排結(jié)構(gòu)40-43
  • 3.3.3 倒排壓縮43-44
  • 3.3.4 截斷索引44
  • 3.3.5 分布式索引建立44-49
  • 3.4 參數(shù)解析模塊49-58
  • 3.4.1 模塊簡介49-50
  • 3.4.2 設(shè)計目標50
  • 3.4.3 參數(shù)形式50-51
  • 3.4.4 設(shè)計思路51-52
  • 3.4.5 詳細接口52-54
  • 3.4.6 流程設(shè)計54-55
  • 3.4.7 配置舉例55-56
  • 3.4.8 參數(shù)解析56-58
  • 3.5 排序模塊58-67
  • 3.5.1 排序簡介58-59
  • 3.5.2 設(shè)計原則59-60
  • 3.5.3 詳細設(shè)計60-67
  • 3.5.4 分布式排序67
  • 3.6 本章小結(jié)67-68
  • 第4章 系統(tǒng)測試與分析68-75
  • 4.1 實驗環(huán)境68
  • 4.2 查詢功能測試68-72
  • 4.2.1 正常查詢68-70
  • 4.2.2 容錯查詢70-71
  • 4.2.3 過濾查詢71-72
  • 4.3 測試數(shù)據(jù)分析72-73
  • 4.4 本章小結(jié)73-75
  • 結(jié)論75-76
  • 參考文獻76-80
  • 致謝80-81
  • 個人簡歷81

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 逄利華;張錦春;;基于Hadoop的分布式數(shù)據(jù)庫系統(tǒng)[J];辦公自動化;2014年05期

2 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期

3 劉爾凱;崔振東;;基于HADOOP技術(shù) 實現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期

4 鄒群;;一種基于Hadoop的數(shù)字圖書存儲系統(tǒng)設(shè)計方案[J];黑龍江史志;2014年01期

5 諶章義;畢偉;向萬紅;王國安;吳愛國;;基于Hadoop的海量電費數(shù)據(jù)處理模型[J];計算機系統(tǒng)應(yīng)用;2014年05期

6 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動化;2014年06期

7 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計算機與網(wǎng)絡(luò);2013年08期

8 王峰;雷葆華;;Hadoop分布式文件系統(tǒng)的模型分析[J];電信科學(xué);2010年12期

9 蘇小會;何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進[J];電子設(shè)計工程;2012年22期

10 林偉偉;;一種改進的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年01期

中國重要報紙全文數(shù)據(jù)庫 前8條

1 本報記者 郭濤;機器大數(shù)據(jù)也離不開Hadoop[N];中國計算機報;2013年

2 本報記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報;2012年

3 本報記者 鄒大斌;Hadoop一體機降低大數(shù)據(jù)門檻[N];計算機世界;2012年

4 孫定;云計算、大數(shù)據(jù)與Hadoop[N];計算機世界;2011年

5 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計算機世界;2012年

6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年

7 波波 編譯;Hadoop、Web 2.0為磁帶帶來新商機[N];網(wǎng)絡(luò)世界;2013年

8 本報記者 郭濤;讓更多人能夠使用Hadoop[N];中國計算機報;2012年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 宋亞奇;云平臺下電力設(shè)備監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理技術(shù)研究[D];華北電力大學(xué)(北京);2016年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 劉君;基于Hadoop技術(shù)的氣象數(shù)據(jù)采集及數(shù)據(jù)挖掘平臺的研究[D];天津理工大學(xué);2015年

2 譚旭;基于物流數(shù)據(jù)的快遞網(wǎng)絡(luò)分析與建模[D];浙江大學(xué);2015年

3 趙偉;基于Hadoop的數(shù)據(jù)挖掘算法并行化研究[D];西南交通大學(xué);2015年

4 趙振崇;基于Hadoop的決策樹挖掘算法的研究[D];蘭州大學(xué);2015年

5 郭凱振;基于Hadoop的分布式計算系統(tǒng)的設(shè)計與實現(xiàn)[D];大連海事大學(xué);2015年

6 白亮;基于Hadoop的民航高價值旅客發(fā)現(xiàn)方法研究[D];中國民航大學(xué);2015年

7 席屏;基于Hadoop的視頻大數(shù)據(jù)智能預(yù)警系統(tǒng)應(yīng)用研究[D];江蘇科技大學(xué);2015年

8 董立明;基于HADOOP的分布式推薦引擎[D];復(fù)旦大學(xué);2013年

9 陸藝達;基于Hadoop分布式計算框架的垃圾短信群發(fā)檢測系統(tǒng)[D];復(fù)旦大學(xué);2013年

10 沈德利;基于Hadoop的密文檢索關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2014年


  本文關(guān)鍵詞:基于Hadoop的分布式商品搜索引擎設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號:501335

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/501335.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d26d8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com