面向SOA的XML數(shù)據(jù)壓縮技術(shù)研究與應(yīng)用
發(fā)布時間:2020-05-30 20:09
【摘要】: 近年來隨著計算機技術(shù)的迅猛發(fā)展,XML已經(jīng)成為Internet上數(shù)據(jù)表示、存儲和交換方面的標準,而電子商務(wù)的興起與企業(yè)自身業(yè)務(wù)的需求又帶動了面向服務(wù)架構(gòu)體系(SOA)的蓬勃發(fā)展,使得SOA成為當前熱門的討論話題。SOA實質(zhì)上是組織服務(wù)的一種架構(gòu)模式,它把服務(wù)通過統(tǒng)一的、中立的、定義良好的接口和契約聯(lián)系起來,獨立于實現(xiàn)服務(wù)的硬件平臺、操作系統(tǒng)和編程語言,使服務(wù)通過統(tǒng)一通用的方式進行交互。而XML具有的自我描述性與跨平臺性,使得它非常符合SOA環(huán)境的要求,因此,在SOA體系中使用XML文檔作為數(shù)據(jù)的傳輸格式和信息載體是XML一個很好的應(yīng)用。 但是,XML文檔一個最大缺陷就是它的冗余性,尤其是結(jié)構(gòu)信息大量重復(fù)造成XML數(shù)據(jù)體積龐大,占用過多的存儲空間與網(wǎng)絡(luò)帶寬,降低了處理效率,增加了SOA消息的傳輸難度,造成了SOA數(shù)據(jù)傳輸問題。為了解決這個問題,在SOA體系中可以通過對服務(wù)器的配置采用Gzip對傳輸?shù)南⑦M行壓縮,Gzip是通用文本壓縮技術(shù)而不是專門為XML設(shè)計的,而本文考慮了XML數(shù)據(jù)自身特點和SOA這個具體應(yīng)用環(huán)境,重點研究了面向存儲與交換的、適合XML數(shù)據(jù)的壓縮方法,并在前人研究的基礎(chǔ)上提出自己的改進。 本文首先闡述SOA基本概念、實現(xiàn)途徑及由于XML冗余造成的SOA數(shù)據(jù)傳輸問題,提出對XML數(shù)據(jù)進行壓縮是解決問題的有效手段。然后介紹XML基本概念、相關(guān)處理技術(shù)及存在的冗余,并介紹通用數(shù)據(jù)壓縮技術(shù)中兩種經(jīng)典算法,分別是哈夫曼編碼和LZ77算法,這些基本的壓縮算法是所有壓縮技術(shù)、壓縮工具的基礎(chǔ)。隨后本文敘述了源壓縮模型XMill的工作原理,它將結(jié)構(gòu)信息與數(shù)據(jù)內(nèi)容相分離,對結(jié)構(gòu)信息進行字典編碼壓縮,對數(shù)據(jù)部分按照它們所屬標簽分門別類地放進相應(yīng)容器中,用Gzip壓縮。在XMill中如果有用戶參與,可以根據(jù)用戶的指令對數(shù)據(jù)容器選用更適合的壓縮方法進行處理,能使壓縮率有所提高。本文是在SOA應(yīng)用環(huán)境中,SOA中傳輸?shù)臄?shù)據(jù)必須遵循XML Schema文檔定義的規(guī)范,因此,本文在XMill的基礎(chǔ)上將輔助結(jié)構(gòu)Schema運用到XML文檔的數(shù)據(jù)壓縮部分,Schema中包含所有XML文檔元素類型的定義。當把數(shù)據(jù)放進容器時通過讀取XML Schema文檔中的數(shù)據(jù)類型值,選用適合的壓縮算法對數(shù)據(jù)容器進行壓縮,而不是一味地只用Gzip,如果某些特殊的數(shù)據(jù)類型與壓縮算法沒有匹配成功,就依然使用Gzip壓縮,這樣做的優(yōu)勢是可以獨立于用戶參與,減輕用戶負擔,在一定程度上實現(xiàn)自動化。本文將改進后的模型命名為XS-XMLComp (Based on XML Schema of XML data Compression Technology),它的一個創(chuàng)新之處就是“因地制宜”地運用了輔助性文檔XML Schema,并且壓縮效果比SOA使用的Gzip要好。 本文最后進行了仿真實驗,將XS-XMLComp與其他幾種壓縮模型進行比較,主要比較了壓縮率、處理速度和效率等性能指標。通過對實驗結(jié)果的分析評述了各個方法的優(yōu)缺點,并且證實本文提出的壓縮模型XS-XMLComp具有可行性與有效性,使壓縮率有一定提高。
【圖文】:
可見壓縮率越大說明壓縮模型的性能越好。各模型如果能夠很好地處理XML文檔的結(jié)構(gòu)信息與數(shù)據(jù)信息,并且待壓縮數(shù)據(jù)源結(jié)構(gòu)比較規(guī)整的話,那么就應(yīng)該得到比較理想的壓縮效果。實驗結(jié)果如表5.2、5.3和圖5.1所示,表5.2顯示了各類數(shù)據(jù)源壓縮后大小變化情況,表5.3顯示按照表達式5.1計算后各壓縮模型的壓縮率,圖5.1是為了更加清晰直觀地顯示出數(shù)據(jù)源處理前后大小變化情況,用Excel圖表將各壓縮模型的壓縮率表現(xiàn)出來。表5.2各類數(shù)據(jù)源壓縮后大小數(shù)數(shù)據(jù)源 源原始大小小 GziPPPWillRARRRXMillllXS一 XMLComPPPX丫VRTTT (((((KB)))(KB)))(KB)))(KB)))(KB)))(KB)))CCCoun盯 xmlllllll1.84441.82221.64441.62221.7222 AAAuthor.xmlll1277772677722888235.8881500016111 IIItem.xmlll11227773928.555357222318222297444347444 AAAddreSS.xmlll16947774366.7773989993537.7444325
次是壓縮編碼的替換,故壓縮時間較長,對壓縮效果產(chǎn)生一定的負面影響。由于每次進行實驗都會有一定的波動,記錄壓縮時間時本實驗采用多次測量取平均值的方法,每個數(shù)據(jù)源被壓縮5次,實驗結(jié)果如表5.4、5.5和圖5.2所示。表5.4顯示了各壓縮模型壓縮時間消耗情況,表5.5顯示各壓縮模型解壓時間消耗情況,圖5.2是為了更加清晰直觀顯示出壓縮模型的處理效率,用Excel圖表將各模型的壓縮時間對比表現(xiàn)出來。表5.4各壓縮模型壓縮時間比較數(shù)數(shù)據(jù)源 源壓縮時間(秒 ))) GGGGGziPPPWinRARRRXM沮 沮XS.XMLComPPPX叭田 叮叮 CCCountry.xmlll1.68880.98881.34441.55552.0555 AAAuthor.xmlll1.77771.76662.18882.83332.3888 IIItem.xmlll2.59999.67776.35555.36665.0555 AAAddress.xmlll2.388813.2226.78888.3335.8777 CCCllstomCt.Xfillll3.766622.5559.22211.59999.8888第52頁共63頁
【學(xué)位授予單位】:首都經(jīng)濟貿(mào)易大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2010
【分類號】:F49
本文編號:2688655
【圖文】:
可見壓縮率越大說明壓縮模型的性能越好。各模型如果能夠很好地處理XML文檔的結(jié)構(gòu)信息與數(shù)據(jù)信息,并且待壓縮數(shù)據(jù)源結(jié)構(gòu)比較規(guī)整的話,那么就應(yīng)該得到比較理想的壓縮效果。實驗結(jié)果如表5.2、5.3和圖5.1所示,表5.2顯示了各類數(shù)據(jù)源壓縮后大小變化情況,表5.3顯示按照表達式5.1計算后各壓縮模型的壓縮率,圖5.1是為了更加清晰直觀地顯示出數(shù)據(jù)源處理前后大小變化情況,用Excel圖表將各壓縮模型的壓縮率表現(xiàn)出來。表5.2各類數(shù)據(jù)源壓縮后大小數(shù)數(shù)據(jù)源 源原始大小小 GziPPPWillRARRRXMillllXS一 XMLComPPPX丫VRTTT (((((KB)))(KB)))(KB)))(KB)))(KB)))(KB)))CCCoun盯 xmlllllll1.84441.82221.64441.62221.7222 AAAuthor.xmlll1277772677722888235.8881500016111 IIItem.xmlll11227773928.555357222318222297444347444 AAAddreSS.xmlll16947774366.7773989993537.7444325
次是壓縮編碼的替換,故壓縮時間較長,對壓縮效果產(chǎn)生一定的負面影響。由于每次進行實驗都會有一定的波動,記錄壓縮時間時本實驗采用多次測量取平均值的方法,每個數(shù)據(jù)源被壓縮5次,實驗結(jié)果如表5.4、5.5和圖5.2所示。表5.4顯示了各壓縮模型壓縮時間消耗情況,表5.5顯示各壓縮模型解壓時間消耗情況,圖5.2是為了更加清晰直觀顯示出壓縮模型的處理效率,用Excel圖表將各模型的壓縮時間對比表現(xiàn)出來。表5.4各壓縮模型壓縮時間比較數(shù)數(shù)據(jù)源 源壓縮時間(秒 ))) GGGGGziPPPWinRARRRXM沮 沮XS.XMLComPPPX叭田 叮叮 CCCountry.xmlll1.68880.98881.34441.55552.0555 AAAuthor.xmlll1.77771.76662.18882.83332.3888 IIItem.xmlll2.59999.67776.35555.36665.0555 AAAddress.xmlll2.388813.2226.78888.3335.8777 CCCllstomCt.Xfillll3.766622.5559.22211.59999.8888第52頁共63頁
【學(xué)位授予單位】:首都經(jīng)濟貿(mào)易大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2010
【分類號】:F49
【引證文獻】
相關(guān)碩士學(xué)位論文 前1條
1 趙長欣;基于數(shù)字版權(quán)唯一標識符解析系統(tǒng)的設(shè)計與實現(xiàn)[D];北方工業(yè)大學(xué);2012年
,本文編號:2688655
本文鏈接:http://sikaile.net/jingjilunwen/xxjj/2688655.html
最近更新
教材專著