大規(guī)模非結構化數(shù)據(jù)的索引技術研究
發(fā)布時間:2017-08-29 21:27
本文關鍵詞:大規(guī)模非結構化數(shù)據(jù)的索引技術研究
更多相關文章: 大規(guī)模數(shù)據(jù) 倒排索引 分塊式存儲 線性散列 B+樹
【摘要】:為解決搜索引擎ASPSeek在大規(guī)模數(shù)據(jù)下檢索效率低下、占用空間大以及不利于更新等問題,提出了一種分塊式存儲的倒排索引組織技術,并對基于外存的B+樹索引和線性散列索引的性能進行了比較測試研究。測試結果表明,查詢每萬條數(shù)據(jù)耗時線性散列為B+樹索引快57.40%,插入每萬條數(shù)據(jù)耗時線性散列為B+樹索引的2.44倍,刪除每萬條數(shù)據(jù)耗時線性散列為B+樹索引的83.52%,線性散列索引文件大小為B+樹索引文件大小的109.56%。由測試結果可知,B+樹索引具有較快的索引構建和更新速度,而線性散列索引則具有較高的磁盤空間占用率和較好的查詢性能。
【作者單位】: 新疆農(nóng)業(yè)大學計算機與信息工程學院;中國農(nóng)業(yè)大學信息與電氣工程學院;
【關鍵詞】: 大規(guī)模數(shù)據(jù) 倒排索引 分塊式存儲 線性散列 B+樹
【基金】:新疆自治區(qū)高?蒲杏媱濏椖(XJEDU2013S13) 新疆維吾爾自治區(qū)科技攻關項目(200931103) 新疆農(nóng)業(yè)大學前期資助課題(XJAU201117)
【分類號】:TP311.13
【正文快照】: 0引言大規(guī)模數(shù)據(jù)的分析與處理技術成為當今社會人們研究和討論的熱點問題。隨著互聯(lián)網(wǎng)技術的蓬勃發(fā)展,非結構化數(shù)據(jù)的數(shù)量日趨增大,面對呈現(xiàn)爆炸式增長的大規(guī)模非結構化數(shù)據(jù),如何從中快速準確地獲取有價值的信息成為各行業(yè)面臨的一個嚴峻挑戰(zhàn)。傳統(tǒng)的商業(yè)數(shù)據(jù)庫主要用于管理結,
本文編號:755523
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/755523.html
最近更新
教材專著