數(shù)據(jù)空間集成與查詢關鍵技術研究
本文選題:數(shù)據(jù)空間 + 數(shù)據(jù)模型。 參考:《哈爾濱工程大學》2016年博士論文
【摘要】:在過去的十年,互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)以及移動互聯(lián)等技術得到蓬勃發(fā)展,這使得當前數(shù)據(jù)呈現(xiàn)出體量巨大、種類繁多、動態(tài)演化和松散關聯(lián)等新特點。傳統(tǒng)的數(shù)據(jù)庫管理技術無法管理這樣的數(shù)據(jù),因此,研究新的數(shù)據(jù)管理技術來駕馭這些數(shù)據(jù)就顯得尤為必要。數(shù)據(jù)空間技術應運而生,并引起數(shù)據(jù)庫社區(qū)和工業(yè)界廣泛關注。然而,數(shù)據(jù)空間在數(shù)據(jù)集成與數(shù)據(jù)查詢方面仍然存在許多尚未(或未完全)解決的問題。例如,缺少表示異構數(shù)據(jù)以及復雜語義關系的數(shù)據(jù)模型;缺少面向動態(tài)演化環(huán)境下的數(shù)據(jù)空間實體劃分技術;缺少支持具有高傾斜分布、大規(guī)模異構數(shù)據(jù)的多維索引技術;缺少無縫搜索異構數(shù)據(jù)、表達力較強的近似查詢技術等。本文立足于數(shù)據(jù)空間集成與數(shù)據(jù)查詢方面的研究,旨在能夠統(tǒng)一地管理各種結構化、半結構化與非結構化數(shù)據(jù),并且能夠高效地、無縫地搜索這些異構數(shù)據(jù),從而為“Pay-as-you-go”方式集成數(shù)據(jù)提供基本保障,進而提供“Best-effort”的數(shù)據(jù)空間查詢服務。針對上述問題,本文將從以下方面展開深入細致的研究。首先,針對數(shù)據(jù)空間中異構數(shù)據(jù)具有上下文依賴性以及語義關系具有復雜性特點,對數(shù)據(jù)空間表示模型進行了研究。通過一個案例分析了傳統(tǒng)數(shù)據(jù)空間模型(如解釋對象模型)的缺陷,提出了一種基于上下文感知的復雜語義關聯(lián)網(wǎng)絡模型(COSAN)。具體而言,(1)在傳統(tǒng)解釋對象模型基礎上,考慮異構數(shù)據(jù)的上下文依賴性,形式化地定義了上下文感知的異構數(shù)據(jù)表示方法。該方法把上下文信息與數(shù)據(jù)源的結構化、半結構化以及非結構化信息統(tǒng)一封裝為上下文感知的解釋對象,從而表達上下文感知的異構信息;(2)為克服傳統(tǒng)數(shù)據(jù)模型只能表示簡單二元語義關系的缺陷,通過一組約束組件(如上下文約束、順序約束和聚合約束等)擴展了傳統(tǒng)的二元語義關系,形式化地表示了復雜語義關系;(3)在公開數(shù)據(jù)集DBLP上進行了大量實驗,實驗結果驗證了該模型的有效性和可行性。其次,針對數(shù)據(jù)空間實體具有信息豐富性、類別滯后性以及動態(tài)演化性特點,對面向數(shù)據(jù)空間的實體劃分技術進行了研究,提出了一種基于演化K-Means的數(shù)據(jù)空間實體劃分方法。具體而言,(1)提出了一種基于輪廓值和KL-散度的演化K-Means聚類框架。該框架不僅考慮當前聚簇的質量(即,快照代價),還考慮了若干典型的歷史聚簇結構的時間平滑性(即,歷史代價);(2)通過綜合使用實體自身的豐富信息和實體間的歷史出現(xiàn)模式信息,設計了一種面向數(shù)據(jù)空間實體的相似性度量方法,從而較準確地度量實體間的相似性;(3)根據(jù)啟發(fā)式規(guī)則,提出了一種基于相似性密度的演化K-Means聚類算法,較好地解決了初始點選擇問題和在演化環(huán)境中數(shù)據(jù)空間實體劃分問題;(4)擴展了演化K-Means聚類框架,以處理簇數(shù)量隨時間發(fā)生變化、快照實體隨時間加入或移除的情況;(5)在公開數(shù)據(jù)集DBLP上進行了大量實驗,實驗結果表明本方法優(yōu)于傳統(tǒng)已有的方法,它不僅能高質量地捕獲當前實體聚類結果,還能健壯地反映歷史聚簇情況。再次,針對傳統(tǒng)數(shù)據(jù)空間索引方法無法適用于高傾斜分布的大規(guī)模數(shù)據(jù)的問題,從負載均衡和劃分角度對數(shù)據(jù)空間多維索引技術進行了研究,提出了一種基于負載均衡和查詢日志的數(shù)據(jù)空間多維索引方法,旨在保持各個索引節(jié)點負載均衡、減少查詢通信開銷、提高數(shù)據(jù)空間查詢處理性能。具體而言,(1)在垂直劃分中,聚合在查詢日志和實體中頻繁出現(xiàn)的token詞,以減少查詢涉及倒排列表的聚合/合并開銷。在此基礎上,結合超圖理論和用戶查詢與倒排列表間訪問模式信息,把垂直劃分問題進一步歸約為超圖劃分問題,從而保持垂直劃分的負載均衡;(2)在水平劃分中,結合超圖理論和用戶查詢與實體間訪問模式信息,把水平劃分問題歸約為超圖劃分問題,從而保持水平劃分的負載均衡;(3)結合垂直劃分和水平劃分策略,構建了二維混合索引。在此基礎上,從查詢吞吐量與容錯率角度考慮,利用索引副本策略,進一步擴展為三維索引;(4)在公開數(shù)據(jù)集DBLP上進行了大量實驗,實驗結果表明本方法在吞吐量、查詢響應時間及擴展性等方面優(yōu)于已有方法。最后,針對傳統(tǒng)數(shù)據(jù)空間查詢語義、查詢結構較簡單的缺陷,對面向數(shù)據(jù)空間的top-k近似子圖查詢技術進行了研究,提出了一種基于鄰域結構的top-k近似子圖查詢方法。具體而言,(1)形式化地定義了數(shù)據(jù)空間中top-k近似子圖查詢問題,在圖管理理論基礎上,提出了一種新型的數(shù)據(jù)空間查詢語言GQL;(2)通過綜合利用頂點距離鄰近性信息和邊標簽分布性信息,設計了一種基于鄰域結構的圖相似性函數(shù);(3)基于索引技術和鄰域結構特征,提出了一種基于鄰域結構的匹配頂點剪枝算法,從而剪枝掉大量無希望的候選匹配頂點;(4)通過考慮頂點剪枝策略和頂點匹配順序,提出了一種面向數(shù)據(jù)空間的top-k近似子圖搜索算法;(5)在真實數(shù)據(jù)集DBLP上進行了大量實驗,實驗結果表明該方法在查詢效果、查詢效率和擴展性方面明顯優(yōu)于已有方法。
[Abstract]:In the past ten years, the Internet, cloud computing, big data and mobile Internet technology is developing rapidly, which makes the data showing a huge volume, variety, new characteristics of dynamic evolution and loosely related. The traditional database management technology to manage such data, therefore, research on new data management technology to manage these data is particularly necessary. Data space came into being, and cause the database community and industry wide attention. However, many still do not exist in the data space, data integration and data query (or not) to solve the problem. For example, the lack of heterogeneous data and complex semantic relation data model; lack of data space entity techniques for dynamic evolution of environment; lack of support with high skew distribution, multidimensional indexing technology of heterogeneous data; lack of seamless search Cable heterogeneous data, expressive approximate query technology. This paper is based on the spatial data integration and data query research, to unified management of various structured, semi-structured and unstructured data, and can efficiently and seamlessly search these heterogeneous data, so as to provide the basic guarantee for the integration of "Pay-as-you-go" the data, which provides "Best-effort" data spatial query service. Aiming at the above problems, this paper will research deeply from the following aspects. Firstly, according to the data space of heterogeneous data with context dependent complexity characteristics and semantic relations, said model to study data space. Data were analyzed by the traditional space model a case (such as object model) defects, presents a complex semantic correlation network model based on context awareness (CO SAN). Specifically, (1) based on the traditional interpretation of the object model, considering the heterogeneous data context dependent, the formal definition of the context aware heterogeneous data representation method. This method takes the structure of context information and data sources, semi-structured and unstructured information unified package for context aware object thus, the expression of heterogeneous information context; (2) to overcome the traditional data model can express the defect simple $two semantic relations, through a set of constraint components (such as context constraints, sequence constraints and polymerization constraints etc.) extends the semantic relations of the traditional two yuan, to formally represent the complex semantic relations; (3) in the public data set DBLP on a large number of experiments, the experimental results verify the feasibility and validity of the model. Secondly, with rich information in data space lag and dynamic entity category Evolution characteristics of oriented data space entity partitioning technology research, put forward a method of data space entity partitioning based on evolutionary K-Means. Specifically, (1) proposed a framework for clustering and evolution of K-Means profile based on KL- divergence. The framework not only consider the quality of the clusters (that is, the price), snapshot also takes into account the time smoothness of some typical historical cluster structure (i.e., historical cost); (2) through the comprehensive use of solid rich information and the history between the pattern information, design a similarity measure method for spatial entity data, thus more accurate to measure the similarity between entities; (3) according to the heuristic rules, presents a similar evolution of K-Means clustering algorithm based on density, better solves the initial selection problem and divides the data space entities in the evolution of environment The problem; (4) expansion of the evolution of the K-Means clustering framework to deal with the number of clusters change with time, the snapshot entity with time to add or remove the situation; (5) in the public data set DBLP on a large number of experiments, the experimental results show that this method is superior to the traditional method of existing, it can not only capture the current high quality the entity clustering results, but also robust to reflect the history of cluster. Thirdly, the traditional data spatial index method is not suitable for large-scale data in high inclined distribution problems, from the angle of load balancing and division of data space Treviso cited Technology research, this paper proposes a data space multidimensional index method of load balancing and query log based on each index node to keep the load balance, reduce the query communication costs, improving the spatial data query processing performance. Specifically, (1) in the vertical partition, aggregation in the query The frequent log and entities in token, in order to reduce the overhead associated with queries involving aggregation / inverted list. On this basis, combining hypergraph theory and user query and inverted list access pattern information, the vertical partition problem is further reduced to a hypergraph partitioning problem, and keep the load balance from the vertical division; (2 at the level of division,) combining hypergraph theory and user query and entity access pattern information, the hypergraph partitioning problem level partition problem reduction, so as to maintain load balancing level; (3) combined with the vertical and horizontal partition partition strategy, construct the two-dimensional hybrid index. On this basis, from the query throughput and fault tolerance point of view, using the index replication strategy, further extended to 3D index; (4) in the public data set DBLP on a large number of experiments, the experimental results show that this method in throughput and query response time And scalability is superior to existing methods. Finally, in view of the traditional spatial data query semantics, query the defect structure is relatively simple, Top-k oriented data space approximate subgraph query technology, proposes a neighborhood structure based on the Top-k approximate subgraph query method. Specifically, (1) formal the definition of the data space Top-k approximate subgraph query problem in graph management based on the theory, proposed a new spatial data query language GQL; (2) by using vertex distance proximity information and edge label distribution information, a similarity function is designed based on the neighborhood structure diagram (; 3) and neighborhood index technology based on the structure characteristic and propose a matching vertex pruning algorithm based on neighborhood structures, thus pruning out a lot of hopeless candidate matching points; (4) by considering the vertex and vertex matching pruning strategy In order to match the order, we propose a data oriented Top-k approximate subgraph search algorithm. (5) a lot of experiments have been done on the real data set DBLP. The experimental results show that this method is superior to the existing methods in query efficiency, query efficiency and scalability.
【學位授予單位】:哈爾濱工程大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP311.13
【相似文獻】
相關期刊論文 前10條
1 楊紅爵;;略論數(shù)據(jù)空間[J];成功(教育);2009年01期
2 郭瑩;;數(shù)據(jù)空間關鍵問題探究[J];軟件導刊;2012年07期
3 厲劍;張紹雄;劉俊杰;李成柱;;大數(shù)據(jù)引發(fā)信息時代新變革[J];大眾科技;2013年12期
4 李斌;;大數(shù)據(jù)及其發(fā)展趨勢研究[J];廣西教育;2013年35期
5 張曉軍;孟祥武;;數(shù)字化周期[J];計算機科學;2002年05期
6 崔晨;吳揚揚;;基于活動的數(shù)據(jù)空間數(shù)據(jù)關系發(fā)現(xiàn)[J];微型機與應用;2011年11期
7 賈云得;;微型數(shù)字存貯遙測裝置數(shù)據(jù)預存貯方法[J];遙測遙控;1989年06期
8 靳小龍;王元卓;程學旗;;大數(shù)據(jù)的研究體系與現(xiàn)狀[J];信息通信技術;2013年06期
9 朝樂門;;數(shù)據(jù)空間及其信息資源管理視角研究[J];情報理論與實踐;2013年11期
10 黃一凡;;合并分區(qū) 數(shù)據(jù)無損有妙招[J];電腦愛好者;2011年23期
相關會議論文 前5條
1 李鴻奎;陳洪艷;;大連市房地產(chǎn)基礎地理信息系統(tǒng)的設計和建設[A];中國地理信息系統(tǒng)協(xié)會第九屆年會論文集[C];2005年
2 董彥磊;申德榮;寇月;聶鐵錚;;數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關聯(lián)關系發(fā)現(xiàn)模型的研究[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
3 龐怡;許洪光;張志敏;;針對海量科技信息的存儲研究[A];信息時代——科技情報研究學術論文集(第三輯)[C];2008年
4 季承;;Oracle利用HWM高水標記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
5 季承;;Oracle利用HWM高水標記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
相關重要報紙文章 前6條
1 牛澤亞;用戶如何在數(shù)據(jù)空間里“被遺忘”?[N];人民郵電;2014年
2 風格;指引大數(shù)據(jù)未來發(fā)展方向的九大真理[N];中華讀書報;2013年
3 錄音整理 本報記者 劉文強 楊豐源;創(chuàng)新驅動,,奮力奔向大數(shù)據(jù)時代[N];貴陽日報;2014年
4 中國人民大學信息學院 李玉坤;云計算與數(shù)據(jù)空間[N];中國計算機報;2008年
5 整理 本報記者 蘇丹丹;把握大數(shù)據(jù)機遇 推動文化產(chǎn)業(yè)跨越發(fā)展[N];中國文化報;2013年
6 安徽國稅局 趙為民;稅務綜合數(shù)據(jù)平臺的設想[N];計算機世界;2007年
相關博士學位論文 前10條
1 祝官文;數(shù)據(jù)空間集成與查詢關鍵技術研究[D];哈爾濱工程大學;2016年
2 李曉娜;面向SaaS應用的多租戶數(shù)據(jù)放置機制研究[D];山東大學;2015年
3 張德兵;基于機器學習的數(shù)據(jù)補全、標注和檢索若干問題研究[D];浙江大學;2015年
4 劉思彤;空間文本數(shù)據(jù)的查詢處理技術研究[D];清華大學;2015年
5 侯振隆;重力全張量梯度數(shù)據(jù)的并行反演算法研究及應用[D];吉林大學;2016年
6 柯余洋;面向三類應用數(shù)據(jù)的智能分析與優(yōu)化研究[D];中國科學技術大學;2016年
7 劉正濤;構建Web數(shù)據(jù)空間的若干關鍵技術研究[D];南京航空航天大學;2016年
8 姜朔;數(shù)據(jù)空間中數(shù)據(jù)集成若干關鍵問題研究[D];東華大學;2014年
9 陳鵬;面向情景感知計算的時空數(shù)據(jù)管理、查詢、分析與相關算法研究[D];華東師范大學;2013年
10 楊丹;數(shù)據(jù)空間中基于語義的實體搜索關鍵技術研究[D];東北大學;2012年
相關碩士學位論文 前10條
1 權西瑞;云環(huán)境下數(shù)據(jù)版權保護方法的研究[D];西安建筑科技大學;2015年
2 向兵;中藥顆粒調劑設備中輔助硬件及自動封口機的設計[D];東北師范大學;2015年
3 朱躍龍;公安情報自動分類系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2015年
4 張鵬遠;大數(shù)據(jù)分類存儲及檢索方法研究[D];西安電子科技大學;2014年
5 王夢佳;DOA下數(shù)據(jù)注冊方法的初步研究與實現(xiàn)[D];成都理工大學;2015年
6 陳啟偉;電機狀態(tài)云監(jiān)測系統(tǒng)研究與實現(xiàn)[D];浙江大學;2016年
7 王照清;大數(shù)據(jù)環(huán)境下數(shù)據(jù)查詢優(yōu)化技術應用研究[D];北方工業(yè)大學;2016年
8 賈振美;面向稀疏軌跡數(shù)據(jù)的位置預測方法研究[D];東北大學;2014年
9 雷德龍;矢量空間數(shù)據(jù)云存儲與馬爾可夫并行聚類算法研究[D];福州大學;2014年
10 王甜甜;國家地理大數(shù)據(jù)戰(zhàn)略平臺研究[D];中共中央黨校;2016年
本文編號:1752371
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1752371.html