基于Map/Reduce框架實現(xiàn)的倒排索引文本檢索

發(fā)布時間：2021-03-07 06:24

　　倒排索引在搜索引擎檢索系統(tǒng)中有很廣泛的應(yīng)用前景。而隨著互聯(lián)網(wǎng)各種數(shù)據(jù)的不斷聚集,單處理器早已無法滿足對數(shù)據(jù)的處理。文章介紹了基于Map/Reduce框架下通過多節(jié)點實現(xiàn)多個文本的倒排索引技術(shù),詳細闡述了在多處理器下倒排索引實現(xiàn)的原理。并根據(jù)目前倒排索引在各大搜索引擎的應(yīng)用狀況,結(jié)合在試驗中獲得的相關(guān)數(shù)據(jù),進一步探索了在Map/Reduce框架下倒排索引文本的有效性和效率。

【文章來源】：智能城市. 2019,5(11)

【文章頁數(shù)】：3 頁

【部分圖文】：

map過程輸入／輸出通過map函數(shù)處理后的輸出的數(shù)據(jù)中，鍵值<單詞＋

過程輸入,處理階段,詞頻,單詞

刀?偏移量，內(nèi)容>作為map的輸入。map函數(shù)的關(guān)鍵是對key和value的進行設(shè)置以適應(yīng)Map/Reduce框架，從而得到正確的結(jié)果。對于文件inverted1.txt與inverted2.txt，搜索關(guān)鍵詞的詳細設(shè)計過程如圖3所示。設(shè)計過程中首先需要對整個文檔進行切分，得到單詞、所屬的文檔URL及詞頻，文中設(shè)計key=單詞＋URL，value=詞頻。即map的輸出為<單詞＋URL，詞頻>。圖3map過程輸入／輸出通過map函數(shù)處理后的輸出的數(shù)據(jù)中，鍵值<單詞＋URL，詞頻>做為combine過程的輸入，該過程需要將同一文檔中Key值相同的value值進行累加，如圖4所示。圖4Combine過程輸入/輸出在最后reduce處理階段，是對最終結(jié)果進行合并的階段，需要對不同文檔中相同的key值進行處理，該過程根據(jù)倒排索引需要的格式進行輸出，輸出結(jié)果為<單詞，URL+詞頻>，如圖5所示。<d1;wd1,t,loc1,loc2…locd1,ft><d2;wd2…>…<dnt…>

過程輸入,文本檢索,倒排索引,集中式

SA.IEEE.2010.[2]劉鵬，于全，楊震于.云計算大數(shù)據(jù)處理[J].北京：人民郵電出版社，2015：35-41.[3]劉立卿.搜索引擎:信息檢索實踐[J].計算機教育，2010，118（10）：65.[4]嚴浪.倒排文件技術(shù)設(shè)計[J].計算機與數(shù)字工程，2011，39（3）：168-170.[5]吳文娟，車明.搜索引擎倒排索引技術(shù)的改進[J].微處理機，2006，27（6）：83-85.[6]謝桂蘭，羅省賢.基于HadoopMap/Reduce模型的應(yīng)用研究[J].微型機與應(yīng)用，2010（8）：4-7．作者簡介：馬飛，碩士，研究方向為并行分布處理與大數(shù)據(jù)云計算技術(shù)、機器學(xué)習(xí)、計算機視覺。圖5Reduce過程輸入/輸出3試驗結(jié)果與分析試驗中，對比了利用Hadoop集群與集中式搜索兩種方式實現(xiàn)倒排索引文本檢索的耗時，同時也比較了利用不同數(shù)目主機搭建的Hadoop集群實現(xiàn)的倒排索引文本檢索速度，試驗中，設(shè)定主題為“找工作”，分別爬取15、50、100、300、500個網(wǎng)頁，以“工程師”為關(guān)鍵字檢索與該職位相關(guān)的招聘信息，數(shù)據(jù)采集如表1所示。表1不同方式實現(xiàn)的倒排索引文本檢索速度表圖6對比了利用Hadoop集群實現(xiàn)的Map/Reduce倒排索引文本平均檢索速度與集中式文本檢索速度，試驗結(jié)果表明，當抓取網(wǎng)頁數(shù)量達到70個時，通過Hadoop集群與集中式實現(xiàn)的倒排索引耗時均接近75000ms。當爬取的網(wǎng)頁數(shù)量為15個時，利用集中式實現(xiàn)的倒排文本索引檢索耗時低于Hadoop集群的耗時，而平均檢索速度則優(yōu)于分布式集群。而隨著抓取網(wǎng)頁的數(shù)量增長到500個時，利用集中式實現(xiàn)的文本檢索耗時呈比例增長，而通過Hadoop集群進行檢索速度明顯優(yōu)于集中式實現(xiàn)的文本檢索，造成該現(xiàn)象的主要原因在于集群啟動時需要一定的時間，在對網(wǎng)頁數(shù)據(jù)進行分片、復(fù)制及不同主機間通信時會消耗大量時間。隨著集群所需要的準備工作完畢，利用集群實現(xiàn)?

【參考文獻】：
期刊論文
[1]倒排文件技術(shù)設(shè)計[J]. 嚴浪.  計算機與數(shù)字工程. 2011(03)
[2]搜索引擎:信息檢索實踐[J]. 劉立卿.  計算機教育. 2010(10)
[3]基于Hadoop MapReduce模型的應(yīng)用研究[J]. 謝桂蘭,羅省賢.  微型機與應(yīng)用. 2010(08)
[4]搜索引擎倒排索引技術(shù)的改進[J]. 吳文娟,車明.  微處理機. 2006(06)

本文編號：3068558

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3068558.html

上一篇：基于改進DFS的聯(lián)鎖仿真教學(xué)系統(tǒng)的設(shè)計與實現(xiàn)
下一篇：地形敏感的四足機器人能耗最優(yōu)規(guī)劃研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Map/Reduce框架實現(xiàn)的倒排索引文本檢索