大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的索引技術(shù)研究
發(fā)布時(shí)間:2017-08-29 21:27
本文關(guān)鍵詞:大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的索引技術(shù)研究
更多相關(guān)文章: 大規(guī)模數(shù)據(jù) 倒排索引 分塊式存儲(chǔ) 線性散列 B+樹
【摘要】:為解決搜索引擎ASPSeek在大規(guī)模數(shù)據(jù)下檢索效率低下、占用空間大以及不利于更新等問題,提出了一種分塊式存儲(chǔ)的倒排索引組織技術(shù),并對(duì)基于外存的B+樹索引和線性散列索引的性能進(jìn)行了比較測(cè)試研究。測(cè)試結(jié)果表明,查詢每萬條數(shù)據(jù)耗時(shí)線性散列為B+樹索引快57.40%,插入每萬條數(shù)據(jù)耗時(shí)線性散列為B+樹索引的2.44倍,刪除每萬條數(shù)據(jù)耗時(shí)線性散列為B+樹索引的83.52%,線性散列索引文件大小為B+樹索引文件大小的109.56%。由測(cè)試結(jié)果可知,B+樹索引具有較快的索引構(gòu)建和更新速度,而線性散列索引則具有較高的磁盤空間占用率和較好的查詢性能。
【作者單位】: 新疆農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院;中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院;
【關(guān)鍵詞】: 大規(guī)模數(shù)據(jù) 倒排索引 分塊式存儲(chǔ) 線性散列 B+樹
【基金】:新疆自治區(qū)高校科研計(jì)劃項(xiàng)目(XJEDU2013S13) 新疆維吾爾自治區(qū)科技攻關(guān)項(xiàng)目(200931103) 新疆農(nóng)業(yè)大學(xué)前期資助課題(XJAU201117)
【分類號(hào)】:TP311.13
【正文快照】: 0引言大規(guī)模數(shù)據(jù)的分析與處理技術(shù)成為當(dāng)今社會(huì)人們研究和討論的熱點(diǎn)問題。隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大,面對(duì)呈現(xiàn)爆炸式增長(zhǎng)的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),如何從中快速準(zhǔn)確地獲取有價(jià)值的信息成為各行業(yè)面臨的一個(gè)嚴(yán)峻挑戰(zhàn)。傳統(tǒng)的商業(yè)數(shù)據(jù)庫(kù)主要用于管理結(jié),
本文編號(hào):755523
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/755523.html
最近更新
教材專著