高效交換XML文檔
發(fā)表時間:2024-06-15 來源:明輝站整理相關(guān)軟件相關(guān)文章人氣:
[摘要]XML文檔因為其固有的描述性特性而趨向于變得很羅嗦。其結(jié)果是文檔會由于被描述的數(shù)據(jù)增多而變得很長,而這種很大的文檔會在需要同其他實體進(jìn)行交換時出現(xiàn)問題。和其他文檔(比如普通文本文件(flat file)或者Electronic Data Interchange (EDI))比起來XML文檔就顯得特...
XML文檔因為其固有的描述性特性而趨向于變得很羅嗦。其結(jié)果是文檔會由于被描述的數(shù)據(jù)增多而變得很長,而這種很大的文檔會在需要同其他實體進(jìn)行交換時出現(xiàn)問題。和其他文檔(比如普通文本文件(flat file)或者Electronic Data Interchange (EDI))比起來XML文檔就顯得特別冗長。為了舉例說明這個概念,讓我們看看以下這個普通文本文件: John,Doe,1587,4/18/2000,1234
Anywhere St.,SomeCity,AZ,85222
再看這個XML文檔:<customers>
<customer customerID="1587">
<firstName>John</firstName>
<lastName>Doe</lastName>
<customerSince>4/18/2000
</customerSince>
<street>1234 Anywhere St.
</street>
<city>SomeCity</city>
<state>AZ</state>
<postalCode>85222</postalCode>
</customer>
</customers>
如果你曾處理過很多XML文檔,那么你就不會奇怪于即使這個XML文檔和這個以逗號分隔開的普通文本文件中包含了相同的原始數(shù)據(jù)(raw data),XML文檔也顯得比普通文本文件大很多了。畢竟,XML是一種元數(shù)據(jù)語言(metadata language)(它包含了許多優(yōu)點比如支持解析、驗證、轉(zhuǎn)換等等),因此決定了其大小會比另一些同類文檔格式大很多。由于XML被更廣泛地作為一種數(shù)據(jù)交換的方法來使用,那么被交換的文檔的大小會降低應(yīng)用程序的性能和可升級性就是毫無疑問的了。
有很多方法來使XML文檔的大小最小化,比如(在適當(dāng)?shù)牡胤剑⿲⒃剞D(zhuǎn)換為屬性,縮寫元素和屬性名,去掉不重要的空白處,只定義一些內(nèi)容。然而無論你做出何種改變,最終大量的原始數(shù)據(jù)還是會形成一個很大的XML文檔。如果你的XML文檔中包含有很多兆字節(jié),你又該如何在你的企業(yè)中對它們進(jìn)行有效地傳遞或?qū)⑺鼈儌鬟f到其他企業(yè)中去呢?
一種方法是將一個大的XML文檔分成多個文檔,它們會(如果可以切分的話)運行的很好,但這樣還會產(chǎn)生一些額外的復(fù)雜性和確保所有文檔都能被準(zhǔn)確發(fā)送和接收的問題。即使是被分開的小文檔也可能會由于大量被傳遞的數(shù)據(jù)而形成幾兆字節(jié)大小的文檔。既然存在這些潛在的問題,那我們這些XML開發(fā)人員該如何更有效地對XML數(shù)據(jù)進(jìn)行交換呢?(我贊成去打高爾夫。)
你可以用壓縮技術(shù)來加速各點之間的文檔交換。由于XML是一個簡單的文本形式,因此大的文檔可以被壓縮成較小形式。這里顯示的范例程序證明了如何通過將一個開發(fā)式代碼的.Net組件添加到一個ZIP存檔文件中來實現(xiàn)用程序來壓縮XML文檔。這么做能夠?qū)⑽募拇笮p至最小并提高數(shù)據(jù)交換的效率。
盡管.Net的J#語言本身支持壓縮,但構(gòu)建到.Net框架中的基類庫卻不支持。然而,有一個完全由管制代碼寫成的名為SharpZipLib的組件可以被用于壓縮各種類型的文檔(在www.icsharpcode.net/OpenSource/SharpZipLib/default.asp中下載該組件)。SharpZipLib是一個用C#寫的、用在.Net中支持Zip、GZip、Tar和BZip2的類庫。它是作為一個assembly來實現(xiàn)的,而且它還能夠同任何使用.Net語言的項目結(jié)合使用。
我曾在幾個應(yīng)用程序中使用過SharpLibZip的早期beta發(fā)行版,我認(rèn)為它在對文檔進(jìn)行壓縮和解壓縮方面非常有效。讓我們來看看如何使用SharpZipLib組件來實現(xiàn)用程序壓縮XML文檔。
壓縮XML文檔
盡管SharpZipLib能夠執(zhí)行好幾種類型的壓縮,但我還是決定在范例程序中使用應(yīng)用最為廣泛的ZIP壓縮格式,因為它很有名,也很好用。為了使代碼能夠被重用,我寫了一個名為Zipper的自定義類。Zipper中有一個名為GenerateZipFile()的靜態(tài)方法(它可以接受指定要保存ZIP文件的路徑)以及一個包括所有要壓縮的文件路徑集合的ArrayList(見列表1)。
Zipper類是SharpZipLib中名為ZipOutputStream類的一個封裝類。你幾乎不用寫什么代碼,也不用花什么力氣就可以用Zipper來將多個文件壓縮到一個簡單的ZIP存檔文件中(一個帶有ZIP擴(kuò)展名的文件)。這個GenerateZipFile()方法是通過建立一個ZipOutputStream類的實例并通過其SetLevel屬性設(shè)置壓縮級別來實現(xiàn)壓縮的。最高壓縮級別可以被設(shè)置到9,而最低則為0。
設(shè)置好壓縮級別之后,由ArrayList(被傳入GenerateZipFile())方法)所指定的文件內(nèi)容就會被處理。一個生成的計數(shù)器(enumerator)會逐個列舉該列表中的文件。每個文件被加載到一個接受文件名和登錄時間的ZipEntry對象中。然后ZipEntry對象通過PutNextEntry()方法被添加到ZipOutputStream對象中。
圖1. 測試Zipper類
在文件名被添加到這個ZIP存檔文件之后將通過一個FileStream對象來讀取其內(nèi)容。FileStream(位于System.IO命名空間下)用于將文件以字節(jié)形式讀入到緩沖區(qū)中。你可以通過調(diào)用FileStream對象中的Read()方法來完成讀取操作。在緩沖區(qū)中的字節(jié)通過Write()方法被寫入ZipOutputStream對象中。注意Write()方法接受要寫入數(shù)據(jù)流中字節(jié)的長度以及在緩沖區(qū)中的起始位置。該過程適用于所有包含在傳給GenerateZipFile()方法的ArrayList參數(shù)之中的每一個文件。 當(dāng)所有條目被添加到這個ZIP文件之后,它會以一個ZIP作為文件擴(kuò)展名被保存到硬盤中。
列表2中顯示了一個用于測試Zipper類的簡單ASP.Net應(yīng)用程序的代碼(見圖1)。它是從定義一個要被壓縮的XML文檔路徑和存儲ZIP文件的路徑開始的。盡管在這個例子中只有一個被壓縮的XML文檔,但是其他文檔的路徑可以被添加到ArrayList對象中來進(jìn)行壓縮。在所有文件路徑被定義好之后,將會調(diào)用靜態(tài)方法GenerateZipFile()。一旦這個ZIP文件被建好之后,會通過System.Web.Mail命名空間下的類來給最終用戶發(fā)送一封e-mail。
解壓XML文檔
對XML文檔進(jìn)行壓縮的能力在不同的情況下是非常有用的,但不可避免地會出現(xiàn)這種情況:有人給你發(fā)送了一個在解析前需要被展開的(extracted)的壓縮文檔。這個問題可以直接通過使用SharpZipLib中的一個名為ZipFile的類來解決。在列表3中你可以看到在這個用于將壓縮文件展開到一個指定目錄下的Zipper類中有一個名為ExtractZipFile()的靜態(tài)方法。代碼首先通過將一個FileStream對象(通過調(diào)用File.Open()方法得到的)傳入ZipFile類的構(gòu)造器中來建立一個ZipFile實例。建立好對象之后,ZIP文件中的每個ZipEntry會被列舉(enumerate)出來。然后調(diào)用ZipFile對象的GetInputStream()方法,該方法接受一個要被展開的ZipEntry作為參數(shù)。從GetInputStream()返回的數(shù)據(jù)流被讀取到一個緩沖區(qū)中,該緩沖區(qū)通過一個FileStream被寫入到文件里。在調(diào)用GetInputStream()時,該ZipFile類會自動對ZipEntry進(jìn)行解壓。
在調(diào)用ExtractZipFile()方法之后,所有位于ZIP文件中的被壓縮文件會被展開并存儲到硬盤上。另外,解壓的字節(jié)流會被寫入一個MemoryStream對象中,這在文件被解析前無需被保存到硬盤上時非常有用。
盡管XML是一個很冗長的元數(shù)據(jù)語言,但大的文檔可以在使用.Net組件(比如SharpLibZip)后被壓縮成一個很小的文檔。通過對這些文檔進(jìn)行壓縮,可以縮短不同實體間文檔交換的時間,其結(jié)果是能夠更快地處理數(shù)據(jù)。想要試試這個很好的壓縮/解壓代碼的例子,你可以訪問www.xmlforasp.net/codeSection.aspx?csID=95。
關(guān)于作者:
Dan Wahlin(是ASP.NET方面的Microsoft MVP)是Wahlin Consulting LLC公司的總裁并創(chuàng)辦了XML for ASP.NET Developers網(wǎng)站(www.XMLforASP.NET),其中主要研究如何在Microsoft的.Net平臺下使用XML和Web services。他還是一名合作培訓(xùn)師和演講者,并在美國各地教授“public and on-site XML and .Net”培訓(xùn)課程。Dan是Professional Windows DNA (Wrox)、ASP.NET Tips、Tutorials 和Code (Sams)等書的合著者,并著有XML for ASP.NET Developers (Sams)一書。他的聯(lián)系方式是dwahlin@xmlforasp.net。