面向商品的垂直搜索系統(tǒng)的設(shè)計與實現(xiàn)
【圖文】:
圖2-1邋Simhash流程圖逡逑Figure邋2-1邋Flow邋Chart邋of邋Simhash逡逑詞:第一步就是給句子進(jìn)行分詞,接下來給每一個詞加上權(quán)重,越高。權(quán)重設(shè)置了五個等級,分別用數(shù)值1?5表示,數(shù)字越“全面屏改變的不僅僅是信息呈現(xiàn)”,分詞后為“全面屏(5)改僅(2)是(1)信息(4)呈現(xiàn)(2)”,括號里是代表單詞的重希:通過哈希算法把每個詞變成哈希值,比如“全面屏”通過0101,“信息”通過Hash算法計算為101011。這樣每個詞語就我們進(jìn)行相似度計算打下了很好的基礎(chǔ)。逡逑:通過步驟二的哈希生成結(jié)果,需要按照單詞的權(quán)重形成加權(quán)屏”的哈希值為“110010”,通過加權(quán)計算為“5邋5邋-5邋-5邋5邋-5”,h值為“100100”,通過加權(quán)計算為“3邋-3邋-3邋3邋-3邋-3”。逡逑:把上面各個單詞算出來的序列值累加,變成只有一個序列的“5邋5邋-5邋-5邋5邋-5”,“改變”的“3-3-3邋3-3-3”,把每一位進(jìn)
的數(shù)據(jù)是海量的這一特點,我們應(yīng)該考慮使用一些更具效率的存儲。其實Simhash逡逑算法輸出的Simhash簽名可以為我們很好建立索引,,從而大大減少索引的時間。逡逑Simhash存儲圖如圖2-2所不。逡逑邐邋邐邐邐邐邐邐邐逡逑;邐n^n邐I邋丨1咐邋 ̄ ̄1邐I逡逑°邐邐邋放大;邐邋:逡逑10邐101...邋101..邋.邋010...邋ilO...邋邐?邋:邋|邋000R[]嫞癛[...邐:逡逑1邐:邋1邋0邋0邋0邋0邋0邋0邋00邋00邋0邋0邋0邋0 ̄邋3-^S>邐<s>邋I逡逑n邐重備位邐!邋I邐.…-邋I邐*逡逑邐=='""=■邐邋i邋I邋0000000000()00Oil邋\...邋<5>N>邋:逡逑?分枿邐i邐’邐s逡逑0邐^邐I」6位邋1邐:邐;逡逑J邐101...邋101邋..邋.010...邋110...邐:邐^邐i邐:逡逑0邐:邐1邐11邋i邋1111邋n邋11111邋0邋1邐]—...邐:逡逑1邐1邋啦邐::|邋1111邋ill邋mini邋iTl ̄:逡逑\邐j邐rniTTTTnn—n_?命邋I逡逑0邐:邐\逡逑圖2-2邋Simhash存儲圖逡逑Figure2-2邋Diagram邋of邋Simhash邋Storeage逡逑我們使用的Simhash是局部敏感哈希,這個算法的特點是只要相似的字符串逡逑9逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 于秀麗;王陽;齊幸輝;;基于樸素貝葉斯的垂直搜索引擎分類器設(shè)計[J];無線電工程;2015年11期
2 趙龍;江榮安;;基于Hive的海量搜索日志分析系統(tǒng)研究[J];計算機(jī)應(yīng)用研究;2013年11期
3 吳潔明;冀單單;韓云輝;;基于Web的DCI垂直搜索引擎的研究與設(shè)計[J];計算機(jī)工程與設(shè)計;2013年04期
4 馮汝偉;謝強(qiáng);丁秋林;;基于文本聚類與分布式Lucene的知識檢索[J];計算機(jī)應(yīng)用;2013年01期
5 覃雄派;王會舉;杜小勇;王珊;;大數(shù)據(jù)分析——RDBMS與MapReduce的競爭與共生[J];軟件學(xué)報;2012年01期
6 王新;劉曉霞;;基于關(guān)聯(lián)規(guī)則挖掘的垂直元搜索引擎研究[J];計算機(jī)工程;2011年04期
7 謝桂蘭;羅省賢;;基于Hadoop MapReduce模型的應(yīng)用研究[J];微型機(jī)與應(yīng)用;2010年08期
8 吳平博,陳群秀,馬亮;基于特征串的大規(guī)模中文網(wǎng)頁快速去重算法研究[J];中文信息學(xué)報;2003年02期
相關(guān)碩士學(xué)位論文 前2條
1 王朝;面向網(wǎng)上訂餐的垂直搜索引擎的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2016年
2 林印華;垂直搜索引擎在團(tuán)購網(wǎng)站中的研究與應(yīng)用[D];中國海洋大學(xué);2013年
本文編號:2680772
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2680772.html