天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向商品的垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2020-05-25 21:30
【摘要】:隨著電子商務(wù)的快速發(fā)展帶來了用戶消費(fèi)習(xí)慣的改變,網(wǎng)上購物的用戶不斷增長。為了購買一款商品,往往需要在不同的商家進(jìn)行同一款商品的價格比較、優(yōu)惠信息的比較、好評率比較等。面向商品的垂直搜索系統(tǒng)的應(yīng)用也風(fēng)靡一時,但是目前是世面上的相關(guān)產(chǎn)品普遍商品數(shù)據(jù)量小、精準(zhǔn)度低、時效性低。于是就需要高精準(zhǔn)度、高時效性的面向商品的搜索引擎服務(wù)。本文與多家知名電商合作,對商品數(shù)據(jù)進(jìn)行一系列的處理、通過面向商品的垂直搜索系統(tǒng),為用戶提供商品價格比較、優(yōu)惠信息的比較、好評率比較等功能的精準(zhǔn)商品搜索與購買服務(wù)。面向商品的垂直搜索系統(tǒng)是來源于百度公司垂直搜索產(chǎn)品線的實際項目,屬于互聯(lián)網(wǎng)搜索引擎領(lǐng)域。商品垂直搜索系統(tǒng)是基于商品數(shù)據(jù)為基礎(chǔ),明確用戶需求,提供面向商品的垂直搜索及購買服務(wù)。本項目主要包括三個部分,數(shù)據(jù)引入、數(shù)據(jù)加工、垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)。在分布式計算平臺上進(jìn)行海量數(shù)據(jù)引入、數(shù)據(jù)加工等相關(guān)前期數(shù)據(jù)處理工作。數(shù)據(jù)引入包括數(shù)據(jù)拉取、數(shù)據(jù)爬取。拉取合作方的商品數(shù)據(jù),爬取合作方無法提供的商品數(shù)據(jù)。爬取是通過使用Python的Scrapy框架實現(xiàn)的。數(shù)據(jù)加工包括數(shù)據(jù)清理、數(shù)據(jù)分類、數(shù)據(jù)去重、數(shù)據(jù)集成等操作。數(shù)據(jù)加工使用了中文分詞、分類算法、Simhash等相關(guān)技術(shù)。待數(shù)據(jù)處理后,進(jìn)行垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)。包括索引建立、搜索詞處理以及檢索排序。最后通過前端搜索界面與用戶進(jìn)行交互。本人主要負(fù)責(zé)產(chǎn)品的數(shù)據(jù)拉取功能的設(shè)計與開發(fā)以及數(shù)據(jù)爬取功能的設(shè)計與開發(fā),數(shù)據(jù)分類功能模塊的設(shè)計與開發(fā),數(shù)據(jù)去重功能模塊的去重模塊設(shè)計與開發(fā),包括去重算法選取、中文分詞、關(guān)鍵詞提取以及在分布式計算平臺上進(jìn)行海量數(shù)據(jù)去重功能的實現(xiàn)。商品數(shù)據(jù)集成的方案設(shè)計與功能模塊的開發(fā)。本論文完成的面向商品的垂直搜索系統(tǒng),經(jīng)過對各模塊進(jìn)行功能測試,均已達(dá)到了預(yù)想的效果,可以為用戶提供更便捷、更高效、更實惠的商品搜索與購買服務(wù)。
【圖文】:

流程圖,流程圖,哈希,單詞


圖2-1邋Simhash流程圖逡逑Figure邋2-1邋Flow邋Chart邋of邋Simhash逡逑詞:第一步就是給句子進(jìn)行分詞,接下來給每一個詞加上權(quán)重,越高。權(quán)重設(shè)置了五個等級,分別用數(shù)值1?5表示,數(shù)字越“全面屏改變的不僅僅是信息呈現(xiàn)”,分詞后為“全面屏(5)改僅(2)是(1)信息(4)呈現(xiàn)(2)”,括號里是代表單詞的重希:通過哈希算法把每個詞變成哈希值,比如“全面屏”通過0101,“信息”通過Hash算法計算為101011。這樣每個詞語就我們進(jìn)行相似度計算打下了很好的基礎(chǔ)。逡逑:通過步驟二的哈希生成結(jié)果,需要按照單詞的權(quán)重形成加權(quán)屏”的哈希值為“110010”,通過加權(quán)計算為“5邋5邋-5邋-5邋5邋-5”,h值為“100100”,通過加權(quán)計算為“3邋-3邋-3邋3邋-3邋-3”。逡逑:把上面各個單詞算出來的序列值累加,變成只有一個序列的“5邋5邋-5邋-5邋5邋-5”,“改變”的“3-3-3邋3-3-3”,把每一位進(jìn)

哈希,海量,字符串,索引


的數(shù)據(jù)是海量的這一特點,我們應(yīng)該考慮使用一些更具效率的存儲。其實Simhash逡逑算法輸出的Simhash簽名可以為我們很好建立索引,,從而大大減少索引的時間。逡逑Simhash存儲圖如圖2-2所不。逡逑邐邋邐邐邐邐邐邐邐逡逑;邐n^n邐I邋丨1咐邋 ̄ ̄1邐I逡逑°邐邐邋放大;邐邋:逡逑10邐101...邋101..邋.邋010...邋ilO...邋邐?邋:邋|邋000R[]嫞癛[...邐:逡逑1邐:邋1邋0邋0邋0邋0邋0邋0邋00邋00邋0邋0邋0邋0 ̄邋3-^S>邐<s>邋I逡逑n邐重備位邐!邋I邐.…-邋I邐*逡逑邐=='""=■邐邋i邋I邋0000000000()00Oil邋\...邋<5>N>邋:逡逑?分枿邐i邐’邐s逡逑0邐^邐I」6位邋1邐:邐;逡逑J邐101...邋101邋..邋.010...邋110...邐:邐^邐i邐:逡逑0邐:邐1邐11邋i邋1111邋n邋11111邋0邋1邐]—...邐:逡逑1邐1邋啦邐::|邋1111邋ill邋mini邋iTl ̄:逡逑\邐j邐rniTTTTnn—n_?命邋I逡逑0邐:邐\逡逑圖2-2邋Simhash存儲圖逡逑Figure2-2邋Diagram邋of邋Simhash邋Storeage逡逑我們使用的Simhash是局部敏感哈希,這個算法的特點是只要相似的字符串逡逑9逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前8條

1 于秀麗;王陽;齊幸輝;;基于樸素貝葉斯的垂直搜索引擎分類器設(shè)計[J];無線電工程;2015年11期

2 趙龍;江榮安;;基于Hive的海量搜索日志分析系統(tǒng)研究[J];計算機(jī)應(yīng)用研究;2013年11期

3 吳潔明;冀單單;韓云輝;;基于Web的DCI垂直搜索引擎的研究與設(shè)計[J];計算機(jī)工程與設(shè)計;2013年04期

4 馮汝偉;謝強(qiáng);丁秋林;;基于文本聚類與分布式Lucene的知識檢索[J];計算機(jī)應(yīng)用;2013年01期

5 覃雄派;王會舉;杜小勇;王珊;;大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J];軟件學(xué)報;2012年01期

6 王新;劉曉霞;;基于關(guān)聯(lián)規(guī)則挖掘的垂直元搜索引擎研究[J];計算機(jī)工程;2011年04期

7 謝桂蘭;羅省賢;;基于Hadoop MapReduce模型的應(yīng)用研究[J];微型機(jī)與應(yīng)用;2010年08期

8 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁快速去重算法研究[J];中文信息學(xué)報;2003年02期

相關(guān)碩士學(xué)位論文 前2條

1 王朝;面向網(wǎng)上訂餐的垂直搜索引擎的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2016年

2 林印華;垂直搜索引擎在團(tuán)購網(wǎng)站中的研究與應(yīng)用[D];中國海洋大學(xué);2013年



本文編號:2680772

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2680772.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶415eb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com