天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Map/Reduce框架實(shí)現(xiàn)的倒排索引文本檢索

發(fā)布時(shí)間:2021-03-07 06:24
  倒排索引在搜索引擎檢索系統(tǒng)中有很廣泛的應(yīng)用前景。而隨著互聯(lián)網(wǎng)各種數(shù)據(jù)的不斷聚集,單處理器早已無(wú)法滿足對(duì)數(shù)據(jù)的處理。文章介紹了基于Map/Reduce框架下通過(guò)多節(jié)點(diǎn)實(shí)現(xiàn)多個(gè)文本的倒排索引技術(shù),詳細(xì)闡述了在多處理器下倒排索引實(shí)現(xiàn)的原理。并根據(jù)目前倒排索引在各大搜索引擎的應(yīng)用狀況,結(jié)合在試驗(yàn)中獲得的相關(guān)數(shù)據(jù),進(jìn)一步探索了在Map/Reduce框架下倒排索引文本的有效性和效率。 

【文章來(lái)源】:智能城市. 2019,5(11)

【文章頁(yè)數(shù)】:3 頁(yè)

【部分圖文】:

基于Map/Reduce框架實(shí)現(xiàn)的倒排索引文本檢索


map過(guò)程輸入/輸出通過(guò)map函數(shù)處理后的輸出的數(shù)據(jù)中,鍵值<單詞+

過(guò)程輸入,處理階段,詞頻,單詞


刀?偏移量,內(nèi)容>作為map的輸入。map函數(shù)的關(guān)鍵是對(duì)key和value的進(jìn)行設(shè)置以適應(yīng)Map/Reduce框架,從而得到正確的結(jié)果。對(duì)于文件inverted1.txt與inverted2.txt,搜索關(guān)鍵詞的詳細(xì)設(shè)計(jì)過(guò)程如圖3所示。設(shè)計(jì)過(guò)程中首先需要對(duì)整個(gè)文檔進(jìn)行切分,得到單詞、所屬的文檔URL及詞頻,文中設(shè)計(jì)key=單詞+URL,value=詞頻。即map的輸出為<單詞+URL,詞頻>。圖3map過(guò)程輸入/輸出通過(guò)map函數(shù)處理后的輸出的數(shù)據(jù)中,鍵值<單詞+URL,詞頻>做為combine過(guò)程的輸入,該過(guò)程需要將同一文檔中Key值相同的value值進(jìn)行累加,如圖4所示。圖4Combine過(guò)程輸入/輸出在最后reduce處理階段,是對(duì)最終結(jié)果進(jìn)行合并的階段,需要對(duì)不同文檔中相同的key值進(jìn)行處理,該過(guò)程根據(jù)倒排索引需要的格式進(jìn)行輸出,輸出結(jié)果為<單詞,URL+詞頻>,如圖5所示。<d1;wd1,t,loc1,loc2…locd1,ft><d2;wd2…>…<dnt…>

過(guò)程輸入,文本檢索,倒排索引,集中式


SA.IEEE.2010.[2]劉鵬,于全,楊震于.云計(jì)算大數(shù)據(jù)處理[J].北京:人民郵電出版社,2015:35-41.[3]劉立卿.搜索引擎:信息檢索實(shí)踐[J].計(jì)算機(jī)教育,2010,118(10):65.[4]嚴(yán)浪.倒排文件技術(shù)設(shè)計(jì)[J].計(jì)算機(jī)與數(shù)字工程,2011,39(3):168-170.[5]吳文娟,車明.搜索引擎倒排索引技術(shù)的改進(jìn)[J].微處理機(jī),2006,27(6):83-85.[6]謝桂蘭,羅省賢.基于HadoopMap/Reduce模型的應(yīng)用研究[J].微型機(jī)與應(yīng)用,2010(8):4-7.作者簡(jiǎn)介:馬飛,碩士,研究方向?yàn)椴⑿蟹植继幚砼c大數(shù)據(jù)云計(jì)算技術(shù)、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)。圖5Reduce過(guò)程輸入/輸出3試驗(yàn)結(jié)果與分析試驗(yàn)中,對(duì)比了利用Hadoop集群與集中式搜索兩種方式實(shí)現(xiàn)倒排索引文本檢索的耗時(shí),同時(shí)也比較了利用不同數(shù)目主機(jī)搭建的Hadoop集群實(shí)現(xiàn)的倒排索引文本檢索速度,試驗(yàn)中,設(shè)定主題為“找工作”,分別爬取15、50、100、300、500個(gè)網(wǎng)頁(yè),以“工程師”為關(guān)鍵字檢索與該職位相關(guān)的招聘信息,數(shù)據(jù)采集如表1所示。表1不同方式實(shí)現(xiàn)的倒排索引文本檢索速度表圖6對(duì)比了利用Hadoop集群實(shí)現(xiàn)的Map/Reduce倒排索引文本平均檢索速度與集中式文本檢索速度,試驗(yàn)結(jié)果表明,當(dāng)抓取網(wǎng)頁(yè)數(shù)量達(dá)到70個(gè)時(shí),通過(guò)Hadoop集群與集中式實(shí)現(xiàn)的倒排索引耗時(shí)均接近75000ms。當(dāng)爬取的網(wǎng)頁(yè)數(shù)量為15個(gè)時(shí),利用集中式實(shí)現(xiàn)的倒排文本索引檢索耗時(shí)低于Hadoop集群的耗時(shí),而平均檢索速度則優(yōu)于分布式集群。而隨著抓取網(wǎng)頁(yè)的數(shù)量增長(zhǎng)到500個(gè)時(shí),利用集中式實(shí)現(xiàn)的文本檢索耗時(shí)呈比例增長(zhǎng),而通過(guò)Hadoop集群進(jìn)行檢索速度明顯優(yōu)于集中式實(shí)現(xiàn)的文本檢索,造成該現(xiàn)象的主要原因在于集群?jiǎn)?dòng)時(shí)需要一定的時(shí)間,在對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分片、復(fù)制及不同主機(jī)間通信時(shí)會(huì)消耗大量時(shí)間。隨著集群所需要的準(zhǔn)備工作完畢,利用集群實(shí)現(xiàn)?

【參考文獻(xiàn)】:
期刊論文
[1]倒排文件技術(shù)設(shè)計(jì)[J]. 嚴(yán)浪.  計(jì)算機(jī)與數(shù)字工程. 2011(03)
[2]搜索引擎:信息檢索實(shí)踐[J]. 劉立卿.  計(jì)算機(jī)教育. 2010(10)
[3]基于Hadoop MapReduce模型的應(yīng)用研究[J]. 謝桂蘭,羅省賢.  微型機(jī)與應(yīng)用. 2010(08)
[4]搜索引擎倒排索引技術(shù)的改進(jìn)[J]. 吳文娟,車明.  微處理機(jī). 2006(06)



本文編號(hào):3068558

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3068558.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶704dd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美日韩国产免费看黄片| 国产成人精品国产成人亚洲| 久一视频这里只有精品| 五月婷婷缴情七月丁香| 日本人妻免费一区二区三区| 国产av一区二区三区四区五区| 精品精品国产自在久久高清| 最好看的人妻中文字幕| 久久精品中文字幕人妻中文| 人妻久久一区二区三区精品99| 91熟女大屁股偷偷对白| 空之色水之色在线播放| 国产又粗又猛又长又黄视频| 日韩在线中文字幕不卡| 国产精品白丝久久av| 日本特黄特色大片免费观看| 国产一区二区不卡在线视频 | 国产亚洲精品久久99| 中国一区二区三区人妻 | 亚洲成人黄色一级大片| 亚洲欧美视频欧美视频| 久久免费精品拍拍一区二区| 精品熟女少妇av免费久久野外| 男人把女人操得嗷嗷叫| 熟女乱一区二区三区丝袜| 国产乱淫av一区二区三区| 扒开腿狂躁女人爽出白浆av| 欧美日韩国产黑人一区| 开心激情网 激情五月天| 丰满熟女少妇一区二区三区| 中文字幕一区二区久久综合| 超碰在线免费公开中国黄片| 国产香蕉国产精品偷在线观看| 欧美性高清一区二区三区视频| 欧美日韩人妻中文一区二区| 亚洲最新中文字幕一区| 欧美日韩国产二三四区| 成人精品视频一区二区在线观看 | 国产欧美韩日一区二区三区| 九九热在线视频观看最新| 日本女优一区二区三区免费|