面向SOA的XML數(shù)據(jù)壓縮技術(shù)研究與應(yīng)用
發(fā)布時(shí)間:2020-05-30 20:09
【摘要】: 近年來(lái)隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,XML已經(jīng)成為Internet上數(shù)據(jù)表示、存儲(chǔ)和交換方面的標(biāo)準(zhǔn),而電子商務(wù)的興起與企業(yè)自身業(yè)務(wù)的需求又帶動(dòng)了面向服務(wù)架構(gòu)體系(SOA)的蓬勃發(fā)展,使得SOA成為當(dāng)前熱門的討論話題。SOA實(shí)質(zhì)上是組織服務(wù)的一種架構(gòu)模式,它把服務(wù)通過(guò)統(tǒng)一的、中立的、定義良好的接口和契約聯(lián)系起來(lái),獨(dú)立于實(shí)現(xiàn)服務(wù)的硬件平臺(tái)、操作系統(tǒng)和編程語(yǔ)言,使服務(wù)通過(guò)統(tǒng)一通用的方式進(jìn)行交互。而XML具有的自我描述性與跨平臺(tái)性,使得它非常符合SOA環(huán)境的要求,因此,在SOA體系中使用XML文檔作為數(shù)據(jù)的傳輸格式和信息載體是XML一個(gè)很好的應(yīng)用。 但是,XML文檔一個(gè)最大缺陷就是它的冗余性,尤其是結(jié)構(gòu)信息大量重復(fù)造成XML數(shù)據(jù)體積龐大,占用過(guò)多的存儲(chǔ)空間與網(wǎng)絡(luò)帶寬,降低了處理效率,增加了SOA消息的傳輸難度,造成了SOA數(shù)據(jù)傳輸問(wèn)題。為了解決這個(gè)問(wèn)題,在SOA體系中可以通過(guò)對(duì)服務(wù)器的配置采用Gzip對(duì)傳輸?shù)南⑦M(jìn)行壓縮,Gzip是通用文本壓縮技術(shù)而不是專門為XML設(shè)計(jì)的,而本文考慮了XML數(shù)據(jù)自身特點(diǎn)和SOA這個(gè)具體應(yīng)用環(huán)境,重點(diǎn)研究了面向存儲(chǔ)與交換的、適合XML數(shù)據(jù)的壓縮方法,并在前人研究的基礎(chǔ)上提出自己的改進(jìn)。 本文首先闡述SOA基本概念、實(shí)現(xiàn)途徑及由于XML冗余造成的SOA數(shù)據(jù)傳輸問(wèn)題,提出對(duì)XML數(shù)據(jù)進(jìn)行壓縮是解決問(wèn)題的有效手段。然后介紹XML基本概念、相關(guān)處理技術(shù)及存在的冗余,并介紹通用數(shù)據(jù)壓縮技術(shù)中兩種經(jīng)典算法,分別是哈夫曼編碼和LZ77算法,這些基本的壓縮算法是所有壓縮技術(shù)、壓縮工具的基礎(chǔ)。隨后本文敘述了源壓縮模型XMill的工作原理,它將結(jié)構(gòu)信息與數(shù)據(jù)內(nèi)容相分離,對(duì)結(jié)構(gòu)信息進(jìn)行字典編碼壓縮,對(duì)數(shù)據(jù)部分按照它們所屬標(biāo)簽分門別類地放進(jìn)相應(yīng)容器中,用Gzip壓縮。在XMill中如果有用戶參與,可以根據(jù)用戶的指令對(duì)數(shù)據(jù)容器選用更適合的壓縮方法進(jìn)行處理,能使壓縮率有所提高。本文是在SOA應(yīng)用環(huán)境中,SOA中傳輸?shù)臄?shù)據(jù)必須遵循XML Schema文檔定義的規(guī)范,因此,本文在XMill的基礎(chǔ)上將輔助結(jié)構(gòu)Schema運(yùn)用到XML文檔的數(shù)據(jù)壓縮部分,Schema中包含所有XML文檔元素類型的定義。當(dāng)把數(shù)據(jù)放進(jìn)容器時(shí)通過(guò)讀取XML Schema文檔中的數(shù)據(jù)類型值,選用適合的壓縮算法對(duì)數(shù)據(jù)容器進(jìn)行壓縮,而不是一味地只用Gzip,如果某些特殊的數(shù)據(jù)類型與壓縮算法沒(méi)有匹配成功,就依然使用Gzip壓縮,這樣做的優(yōu)勢(shì)是可以獨(dú)立于用戶參與,減輕用戶負(fù)擔(dān),在一定程度上實(shí)現(xiàn)自動(dòng)化。本文將改進(jìn)后的模型命名為XS-XMLComp (Based on XML Schema of XML data Compression Technology),它的一個(gè)創(chuàng)新之處就是“因地制宜”地運(yùn)用了輔助性文檔XML Schema,并且壓縮效果比SOA使用的Gzip要好。 本文最后進(jìn)行了仿真實(shí)驗(yàn),將XS-XMLComp與其他幾種壓縮模型進(jìn)行比較,主要比較了壓縮率、處理速度和效率等性能指標(biāo)。通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的分析評(píng)述了各個(gè)方法的優(yōu)缺點(diǎn),并且證實(shí)本文提出的壓縮模型XS-XMLComp具有可行性與有效性,使壓縮率有一定提高。
【圖文】:
可見(jiàn)壓縮率越大說(shuō)明壓縮模型的性能越好。各模型如果能夠很好地處理XML文檔的結(jié)構(gòu)信息與數(shù)據(jù)信息,并且待壓縮數(shù)據(jù)源結(jié)構(gòu)比較規(guī)整的話,那么就應(yīng)該得到比較理想的壓縮效果。實(shí)驗(yàn)結(jié)果如表5.2、5.3和圖5.1所示,表5.2顯示了各類數(shù)據(jù)源壓縮后大小變化情況,表5.3顯示按照表達(dá)式5.1計(jì)算后各壓縮模型的壓縮率,圖5.1是為了更加清晰直觀地顯示出數(shù)據(jù)源處理前后大小變化情況,用Excel圖表將各壓縮模型的壓縮率表現(xiàn)出來(lái)。表5.2各類數(shù)據(jù)源壓縮后大小數(shù)數(shù)據(jù)源 源原始大小小 GziPPPWillRARRRXMillllXS一 XMLComPPPX丫VRTTT (((((KB)))(KB)))(KB)))(KB)))(KB)))(KB)))CCCoun盯 xmlllllll1.84441.82221.64441.62221.7222 AAAuthor.xmlll1277772677722888235.8881500016111 IIItem.xmlll11227773928.555357222318222297444347444 AAAddreSS.xmlll16947774366.7773989993537.7444325
次是壓縮編碼的替換,故壓縮時(shí)間較長(zhǎng),對(duì)壓縮效果產(chǎn)生一定的負(fù)面影響。由于每次進(jìn)行實(shí)驗(yàn)都會(huì)有一定的波動(dòng),記錄壓縮時(shí)間時(shí)本實(shí)驗(yàn)采用多次測(cè)量取平均值的方法,每個(gè)數(shù)據(jù)源被壓縮5次,實(shí)驗(yàn)結(jié)果如表5.4、5.5和圖5.2所示。表5.4顯示了各壓縮模型壓縮時(shí)間消耗情況,表5.5顯示各壓縮模型解壓時(shí)間消耗情況,圖5.2是為了更加清晰直觀顯示出壓縮模型的處理效率,用Excel圖表將各模型的壓縮時(shí)間對(duì)比表現(xiàn)出來(lái)。表5.4各壓縮模型壓縮時(shí)間比較數(shù)數(shù)據(jù)源 源壓縮時(shí)間(秒 ))) GGGGGziPPPWinRARRRXM沮 沮XS.XMLComPPPX叭田 叮叮 CCCountry.xmlll1.68880.98881.34441.55552.0555 AAAuthor.xmlll1.77771.76662.18882.83332.3888 IIItem.xmlll2.59999.67776.35555.36665.0555 AAAddress.xmlll2.388813.2226.78888.3335.8777 CCCllstomCt.Xfillll3.766622.5559.22211.59999.8888第52頁(yè)共63頁(yè)
【學(xué)位授予單位】:首都經(jīng)濟(jì)貿(mào)易大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:F49
本文編號(hào):2688655
【圖文】:
可見(jiàn)壓縮率越大說(shuō)明壓縮模型的性能越好。各模型如果能夠很好地處理XML文檔的結(jié)構(gòu)信息與數(shù)據(jù)信息,并且待壓縮數(shù)據(jù)源結(jié)構(gòu)比較規(guī)整的話,那么就應(yīng)該得到比較理想的壓縮效果。實(shí)驗(yàn)結(jié)果如表5.2、5.3和圖5.1所示,表5.2顯示了各類數(shù)據(jù)源壓縮后大小變化情況,表5.3顯示按照表達(dá)式5.1計(jì)算后各壓縮模型的壓縮率,圖5.1是為了更加清晰直觀地顯示出數(shù)據(jù)源處理前后大小變化情況,用Excel圖表將各壓縮模型的壓縮率表現(xiàn)出來(lái)。表5.2各類數(shù)據(jù)源壓縮后大小數(shù)數(shù)據(jù)源 源原始大小小 GziPPPWillRARRRXMillllXS一 XMLComPPPX丫VRTTT (((((KB)))(KB)))(KB)))(KB)))(KB)))(KB)))CCCoun盯 xmlllllll1.84441.82221.64441.62221.7222 AAAuthor.xmlll1277772677722888235.8881500016111 IIItem.xmlll11227773928.555357222318222297444347444 AAAddreSS.xmlll16947774366.7773989993537.7444325
次是壓縮編碼的替換,故壓縮時(shí)間較長(zhǎng),對(duì)壓縮效果產(chǎn)生一定的負(fù)面影響。由于每次進(jìn)行實(shí)驗(yàn)都會(huì)有一定的波動(dòng),記錄壓縮時(shí)間時(shí)本實(shí)驗(yàn)采用多次測(cè)量取平均值的方法,每個(gè)數(shù)據(jù)源被壓縮5次,實(shí)驗(yàn)結(jié)果如表5.4、5.5和圖5.2所示。表5.4顯示了各壓縮模型壓縮時(shí)間消耗情況,表5.5顯示各壓縮模型解壓時(shí)間消耗情況,圖5.2是為了更加清晰直觀顯示出壓縮模型的處理效率,用Excel圖表將各模型的壓縮時(shí)間對(duì)比表現(xiàn)出來(lái)。表5.4各壓縮模型壓縮時(shí)間比較數(shù)數(shù)據(jù)源 源壓縮時(shí)間(秒 ))) GGGGGziPPPWinRARRRXM沮 沮XS.XMLComPPPX叭田 叮叮 CCCountry.xmlll1.68880.98881.34441.55552.0555 AAAuthor.xmlll1.77771.76662.18882.83332.3888 IIItem.xmlll2.59999.67776.35555.36665.0555 AAAddress.xmlll2.388813.2226.78888.3335.8777 CCCllstomCt.Xfillll3.766622.5559.22211.59999.8888第52頁(yè)共63頁(yè)
【學(xué)位授予單位】:首都經(jīng)濟(jì)貿(mào)易大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:F49
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 趙長(zhǎng)欣;基于數(shù)字版權(quán)唯一標(biāo)識(shí)符解析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北方工業(yè)大學(xué);2012年
,本文編號(hào):2688655
本文鏈接:http://sikaile.net/jingjilunwen/xxjj/2688655.html
最近更新
教材專著