在hadoop下運用Mapreduce構(gòu)建文本索引
發(fā)布時間:2017-06-23 06:14
本文關(guān)鍵詞:在hadoop下運用Mapreduce構(gòu)建文本索引,由筆耕文化傳播整理發(fā)布。
【摘要】:Hadoop是開源的一個分布式系統(tǒng)基礎(chǔ)架構(gòu),借助Hadoop,可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。文本索引在生產(chǎn)生活中有著廣泛的應(yīng)用,從搜索引擎的倒排索引到操作系統(tǒng)的指令都需要使用文本索引。在hadoop環(huán)境中構(gòu)建文本索引,能夠為搜索引擎和文檔全文索引提供支持,并且同時兼顧了分布式系統(tǒng)的優(yōu)點。在Hadoop環(huán)境中構(gòu)建本索引的主要價值有:在分布式平臺Hadoop建立倒排索引可以提高建立索引的速度,能夠方便的存儲大數(shù)據(jù)量,有著良好的擴展性以便實現(xiàn)在大規(guī)模系統(tǒng)中等優(yōu)點。
【作者單位】: 西北工業(yè)大學(xué);
【關(guān)鍵詞】: Hadoop MapReduce 文本索引 倒排索引
【分類號】:TP391.3
【正文快照】: 一般來說,MapReduce會通過鍵—值對(key-value pair)的轉(zhuǎn)換處理,將一個大型的計算問題轉(zhuǎn)化成較小的子問題。在索引構(gòu)建中,鍵—值對的形式就是(詞項,文檔名)。在分布式索引構(gòu)建過程中,從詞項到文檔名的映射同樣要分布式進行,因此分布式的索引構(gòu)建方法要比單機上的索引構(gòu)建方法
【參考文獻】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 何榮波;MapReduce模型在Hadoop中的性能優(yōu)化及改進[D];北京化工大學(xué);2011年
2 趙會杰;中文全文檢索系統(tǒng)中索引的研究[D];北京交通大學(xué);2007年
3 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D];北京郵電大學(xué);2008年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李s,
本文編號:474119
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/474119.html
最近更新
教材專著