連續(xù)不確定XML索引技術(shù)研究
本文選題:連續(xù)不確定數(shù)據(jù) + XML; 參考:《內(nèi)蒙古科技大學》2015年碩士論文
【摘要】:隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展, XML類型的數(shù)據(jù)已成為當前一種主流的數(shù)據(jù)形式,并成為Internet中進行數(shù)據(jù)交換和表示事實上的標準。在實際生活中,數(shù)據(jù)的不確定性是普遍存在的,傳統(tǒng)的確定性數(shù)據(jù)已經(jīng)不能準確描述現(xiàn)實世界。隨著人們對不確定性數(shù)據(jù)的認識研究和對數(shù)據(jù)采集和處理技術(shù)的深入理解,不確定性數(shù)據(jù)在物流、工業(yè)、金融、軍事等領(lǐng)域得到相當廣泛的應(yīng)用;旧,在數(shù)據(jù)庫中的不確定性是為了捕捉現(xiàn)實世界的狀態(tài),如監(jiān)控的壓強,溫度,移動目標的位置都是在不斷改變的。數(shù)據(jù)的不確定性信息可以以概率值或概率分布的形式在XML文檔中表示。對于連續(xù)不確定的數(shù)據(jù),存儲用概率密度函數(shù)pdf可能值的范圍來代替存儲數(shù)據(jù)單一的值。而相應(yīng)的概率閾值范圍查詢,是通過給定概率閾值及范圍,來獲取超過概率閾值起點并滿足查詢范圍的結(jié)果。在概率閾值范圍查詢中,由于滿足查詢指定的概率值的出現(xiàn),從而使得結(jié)果被擴大化。概率閾值范圍查詢比傳統(tǒng)查詢更精確及信息化。隨著用戶查詢需求的日益增長和多元化,有效地構(gòu)建XML索引面臨著嚴峻的挑戰(zhàn)。 當前,XML索引技術(shù)的發(fā)展也成為了一個熱點研究。目前,在實際應(yīng)用中很多的數(shù)據(jù)都是服從連續(xù)分布的,通過對已有XML索引的研究,本文針對概率閾值范圍查詢,提出了一種對任意連續(xù)不確定XML數(shù)據(jù)均適用的RLPI索引。首先,在Dewey編碼的基礎(chǔ)上進行改進,增加了對不確定XML中分布節(jié)點IND和MUX的處理一種前綴編碼PED-ewey。其次,在RLPI路徑索引中將具有相同逆序標簽路徑的索引項聚集存儲,節(jié)省了空間花銷;在RLPI值索引中,通過預處理任意連續(xù)不確定數(shù)據(jù),并結(jié)合相應(yīng)地過濾策略,過濾與查詢無關(guān)的節(jié)點,減少了pdf的計算,從而提高了查詢的速度。由于計算連續(xù)不確定數(shù)據(jù)pdf比較費時,為進一步提高查詢速度,提出一種優(yōu)化算法CUXI索引樹。算法借鑒R樹的對空間數(shù)據(jù)自頂向下遞歸構(gòu)建索引樹的思想,通過對連續(xù)不確定的XML數(shù)據(jù)聚類構(gòu)建相應(yīng)的索引樹,并在節(jié)點存儲提前計算的一些信息,來過濾掉與概率閾值范圍查詢無關(guān)的元素,以減少查詢中需處理的元素數(shù)目,提高查詢的速度。 本文實驗通過設(shè)定文檔大小、查詢用例和概率閾值作為變量,對比算法查詢響應(yīng)時間測試算法性能。對實驗結(jié)果進行分析,證明本文提出的RLPI索引算法和CUXI索引樹算法具有高效性。
[Abstract]:With the rapid development of network technology, XML type data has become a mainstream data form, and it has become the standard of data exchange and representation in Internet. In real life, the uncertainty of data is universal, the traditional deterministic data can not accurately describe the real world. With the understanding of uncertain data and the deep understanding of data acquisition and processing technology, uncertain data has been widely used in logistics, industry, finance, military and other fields. Basically, the uncertainty in the database is to capture the state of the real world, such as the monitoring pressure, temperature, moving target location is constantly changing. The uncertain information of data can be expressed in XML document in the form of probabilistic value or probability distribution. For continuous uncertain data, the range of the possible values of the probability density function (pdf) is used to replace the single value of the stored data. The corresponding probabilistic threshold range query is based on the given probability threshold and range to obtain the results that exceed the threshold of probability threshold and satisfy the range of the query. In the probabilistic threshold range query, the result is expanded because the probability value specified by the query is satisfied. The probabilistic threshold range query is more accurate and informative than the traditional query. With the increasing and diversification of user query demand, constructing XML index effectively is facing a severe challenge. At present, the development of XML indexing technology has also become a hot research. At present, a lot of data are distributed continuously in practical application. Through the research of existing XML index, this paper proposes a RLPI index which is suitable for arbitrary continuous uncertain XML data, aiming at the query of probability threshold range. Firstly, based on Dewey coding, a prefix code PED-ewey is added to deal with the distributed nodes IND and MUX in uncertain XML. Secondly, the index items with the same inverse label path are clustered and stored in the RLPI path index, which saves the space cost. In the RLPI value index, the arbitrary continuous uncertain data is pretreated and the corresponding filtering strategy is combined. Filtering nodes independent of query reduces the computation of pdf and improves the speed of query. Because the computation of continuous uncertain data pdf is time-consuming, in order to further improve the query speed, an optimization algorithm, CUXI index tree, is proposed. The algorithm uses the idea of R-tree to construct index tree from top to bottom recursion of spatial data, constructs the index tree by clustering continuous uncertain XML data, and stores some information calculated in advance at the node. In order to reduce the number of elements to be processed in the query and improve the speed of the query, it can filter out the elements independent of the range of probabilistic threshold. In this paper, the performance of the algorithm is compared by setting the document size, query case and probability threshold as variables. The experimental results show that the proposed RLPI index algorithm and the CUXI index tree algorithm are efficient.
【學位授予單位】:內(nèi)蒙古科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 崔斌;盧陽;;基于不確定數(shù)據(jù)的查詢處理綜述[J];計算機應(yīng)用;2008年11期
2 周遜;李建中;石勝飛;;不確定數(shù)據(jù)上兩種查詢的分布式聚集算法[J];計算機研究與發(fā)展;2010年05期
3 徐雪松;;時間序列不確定數(shù)據(jù)流中異常數(shù)據(jù)檢測方法[J];電子設(shè)計工程;2011年19期
4 徐雪松;李玲娟;郭立瑋;;基于優(yōu)化策略的不確定數(shù)據(jù)流預測方法[J];計算機工程;2011年21期
5 徐雪松;沈紅紅;陶帆;胡曉璐;崔偉;;基于小波分析的不確定數(shù)據(jù)流異常數(shù)據(jù)檢測[J];軟件導刊;2011年11期
6 錢江波;王志杰;陳華輝;王海斌;;不確定數(shù)據(jù)流自適應(yīng)并行連接算法及應(yīng)用[J];電信科學;2012年02期
7 向劍平;喬少杰;胡劍;;基于不確定數(shù)據(jù)理論的道路相關(guān)度度量方法[J];計算機工程與設(shè)計;2012年06期
8 曹振麗;孫瑞志;李勐;;面向不確定數(shù)據(jù)的農(nóng)產(chǎn)品追溯方法[J];農(nóng)業(yè)機械學報;2013年07期
9 蔣濤;高云君;張彬;周傲英;樂光學;;不確定數(shù)據(jù)查詢處理[J];電子學報;2013年05期
10 王爽;楊廣明;朱志良;;基于不確定數(shù)據(jù)的頻繁項查詢算法[J];東北大學學報(自然科學版);2011年03期
相關(guān)會議論文 前7條
1 高聰;申德榮;于戈;聶鐵錚;寇月;;一種基于不確定數(shù)據(jù)的挖掘頻繁集方法[A];第二十五屆中國數(shù)據(jù)庫學術(shù)會議論文集(二)[C];2008年
2 周遜;李建中;石勝飛;;不確定數(shù)據(jù)上聚集查詢的分布式處理算法[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(A輯)[C];2009年
3 王曉偉;黃九鳴;賈焰;;分布式不確定數(shù)據(jù)上的概率Skyline計算[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集A輯二[C];2010年
4 艾文凱;張剡;柏文陽;;基于用戶偏好的不確定數(shù)據(jù)閾值輪廓查詢算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年
5 陸葉;王麗珍;張曉峰;;從不確定數(shù)據(jù)集中挖掘頻繁Co-location模式[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(A輯)[C];2009年
6 孫永佼;王國仁;;P2P環(huán)境中不確定數(shù)據(jù)Top-k查詢處理算法[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年
7 張潮;李晨;王勇;張陽;;uPOSC4.5:一種針對不確定數(shù)據(jù)的PU學習決策樹算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年
相關(guān)博士學位論文 前7條
1 湯克明;不確定數(shù)據(jù)流中頻繁數(shù)據(jù)挖掘研究[D];南京航空航天大學;2012年
2 梁春泉;不確定數(shù)據(jù)流分類算法研究[D];西北農(nóng)林科技大學;2014年
3 高明;不確定數(shù)據(jù)的世系管理和相似性查詢[D];復旦大學;2011年
4 董俊;不確定數(shù)據(jù)中數(shù)據(jù)挖掘方法的研究[D];燕山大學;2012年
5 孫永佼;P2P環(huán)境下排序查詢處理和分類技術(shù)的研究[D];東北大學;2012年
6 王爽;不確定數(shù)據(jù)流頻繁模式挖掘算法研究[D];東北大學;2013年
7 王曉偉;基于概率數(shù)據(jù)庫的偏好查詢研究[D];國防科學技術(shù)大學;2011年
相關(guān)碩士學位論文 前10條
1 李雪;不確定數(shù)據(jù)聚類研究[D];大連理工大學;2009年
2 周遜;不確定數(shù)據(jù)聚集查詢的分布式處理算法[D];哈爾濱工業(yè)大學;2009年
3 朱倩;屬性不確定數(shù)據(jù)關(guān)聯(lián)分類算法研究[D];大連理工大學;2011年
4 劉明建;不確定數(shù)據(jù)的代價敏感決策樹分類器研究[D];西北農(nóng)林科技大學;2012年
5 鄧慧挺;不確定數(shù)據(jù)的重復檢測及清洗研究[D];南京航空航天大學;2012年
6 夏菁;基于可信度計算的不確定數(shù)據(jù)起源研究[D];南京航空航天大學;2012年
7 宋明;基于密度的不確定數(shù)據(jù)流聚類算法的研究與實現(xiàn)[D];東北大學;2011年
8 王瑩瑩;基于密度的不確定數(shù)據(jù)聚類研究[D];長春工業(yè)大學;2013年
9 蘇書賓;不確定數(shù)據(jù)聚類研究[D];江西理工大學;2014年
10 覃香菊;不確定數(shù)據(jù)上的關(guān)聯(lián)分類器[D];西北農(nóng)林科技大學;2011年
,本文編號:1949936
本文鏈接:http://sikaile.net/guanlilunwen/wuliuguanlilunwen/1949936.html