天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Map/Reduce框架實現(xiàn)的倒排索引文本檢索

發(fā)布時間:2021-03-07 06:24
  倒排索引在搜索引擎檢索系統(tǒng)中有很廣泛的應(yīng)用前景。而隨著互聯(lián)網(wǎng)各種數(shù)據(jù)的不斷聚集,單處理器早已無法滿足對數(shù)據(jù)的處理。文章介紹了基于Map/Reduce框架下通過多節(jié)點實現(xiàn)多個文本的倒排索引技術(shù),詳細闡述了在多處理器下倒排索引實現(xiàn)的原理。并根據(jù)目前倒排索引在各大搜索引擎的應(yīng)用狀況,結(jié)合在試驗中獲得的相關(guān)數(shù)據(jù),進一步探索了在Map/Reduce框架下倒排索引文本的有效性和效率。 

【文章來源】:智能城市. 2019,5(11)

【文章頁數(shù)】:3 頁

【部分圖文】:

基于Map/Reduce框架實現(xiàn)的倒排索引文本檢索


map過程輸入/輸出通過map函數(shù)處理后的輸出的數(shù)據(jù)中,鍵值<單詞+

過程輸入,處理階段,詞頻,單詞


刀?偏移量,內(nèi)容>作為map的輸入。map函數(shù)的關(guān)鍵是對key和value的進行設(shè)置以適應(yīng)Map/Reduce框架,從而得到正確的結(jié)果。對于文件inverted1.txt與inverted2.txt,搜索關(guān)鍵詞的詳細設(shè)計過程如圖3所示。設(shè)計過程中首先需要對整個文檔進行切分,得到單詞、所屬的文檔URL及詞頻,文中設(shè)計key=單詞+URL,value=詞頻。即map的輸出為<單詞+URL,詞頻>。圖3map過程輸入/輸出通過map函數(shù)處理后的輸出的數(shù)據(jù)中,鍵值<單詞+URL,詞頻>做為combine過程的輸入,該過程需要將同一文檔中Key值相同的value值進行累加,如圖4所示。圖4Combine過程輸入/輸出在最后reduce處理階段,是對最終結(jié)果進行合并的階段,需要對不同文檔中相同的key值進行處理,該過程根據(jù)倒排索引需要的格式進行輸出,輸出結(jié)果為<單詞,URL+詞頻>,如圖5所示。<d1;wd1,t,loc1,loc2…locd1,ft><d2;wd2…>…<dnt…>

過程輸入,文本檢索,倒排索引,集中式


SA.IEEE.2010.[2]劉鵬,于全,楊震于.云計算大數(shù)據(jù)處理[J].北京:人民郵電出版社,2015:35-41.[3]劉立卿.搜索引擎:信息檢索實踐[J].計算機教育,2010,118(10):65.[4]嚴浪.倒排文件技術(shù)設(shè)計[J].計算機與數(shù)字工程,2011,39(3):168-170.[5]吳文娟,車明.搜索引擎倒排索引技術(shù)的改進[J].微處理機,2006,27(6):83-85.[6]謝桂蘭,羅省賢.基于HadoopMap/Reduce模型的應(yīng)用研究[J].微型機與應(yīng)用,2010(8):4-7.作者簡介:馬飛,碩士,研究方向為并行分布處理與大數(shù)據(jù)云計算技術(shù)、機器學(xué)習(xí)、計算機視覺。圖5Reduce過程輸入/輸出3試驗結(jié)果與分析試驗中,對比了利用Hadoop集群與集中式搜索兩種方式實現(xiàn)倒排索引文本檢索的耗時,同時也比較了利用不同數(shù)目主機搭建的Hadoop集群實現(xiàn)的倒排索引文本檢索速度,試驗中,設(shè)定主題為“找工作”,分別爬取15、50、100、300、500個網(wǎng)頁,以“工程師”為關(guān)鍵字檢索與該職位相關(guān)的招聘信息,數(shù)據(jù)采集如表1所示。表1不同方式實現(xiàn)的倒排索引文本檢索速度表圖6對比了利用Hadoop集群實現(xiàn)的Map/Reduce倒排索引文本平均檢索速度與集中式文本檢索速度,試驗結(jié)果表明,當抓取網(wǎng)頁數(shù)量達到70個時,通過Hadoop集群與集中式實現(xiàn)的倒排索引耗時均接近75000ms。當爬取的網(wǎng)頁數(shù)量為15個時,利用集中式實現(xiàn)的倒排文本索引檢索耗時低于Hadoop集群的耗時,而平均檢索速度則優(yōu)于分布式集群。而隨著抓取網(wǎng)頁的數(shù)量增長到500個時,利用集中式實現(xiàn)的文本檢索耗時呈比例增長,而通過Hadoop集群進行檢索速度明顯優(yōu)于集中式實現(xiàn)的文本檢索,造成該現(xiàn)象的主要原因在于集群啟動時需要一定的時間,在對網(wǎng)頁數(shù)據(jù)進行分片、復(fù)制及不同主機間通信時會消耗大量時間。隨著集群所需要的準備工作完畢,利用集群實現(xiàn)?

【參考文獻】:
期刊論文
[1]倒排文件技術(shù)設(shè)計[J]. 嚴浪.  計算機與數(shù)字工程. 2011(03)
[2]搜索引擎:信息檢索實踐[J]. 劉立卿.  計算機教育. 2010(10)
[3]基于Hadoop MapReduce模型的應(yīng)用研究[J]. 謝桂蘭,羅省賢.  微型機與應(yīng)用. 2010(08)
[4]搜索引擎倒排索引技術(shù)的改進[J]. 吳文娟,車明.  微處理機. 2006(06)



本文編號:3068558

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3068558.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶704dd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com