Java與XML聯(lián)合編程之SAX篇
發(fā)表時間:2024-06-13 來源:明輝站整理相關(guān)軟件相關(guān)文章人氣:
[摘要]SAX概念 SAX是Simple API for XML的縮寫,它并不是由W3C官方所提出的標(biāo)準(zhǔn),可以說是“民間”的事實標(biāo)準(zhǔn)。實際上,它是一種社區(qū)性質(zhì)的討論產(chǎn)物。雖然如此,在XML中對SAX的應(yīng)用絲毫不比DOM少,幾乎所有的XML解析器都會支持它。 與DOM比較而言,SAX是一種輕量型的方法。我們...
SAX概念
SAX是Simple API for XML的縮寫,它并不是由W3C官方所提出的標(biāo)準(zhǔn),可以說是“民間”的事實標(biāo)準(zhǔn)。實際上,它是一種社區(qū)性質(zhì)的討論產(chǎn)物。雖然如此,在XML中對SAX的應(yīng)用絲毫不比DOM少,幾乎所有的XML解析器都會支持它。
與DOM比較而言,SAX是一種輕量型的方法。我們知道,在處理DOM的時候,我們需要讀入整個的XML文檔,然后在內(nèi)存中創(chuàng)建DOM樹,生成DOM樹上的每個Node對象。當(dāng)文檔比較小的時候,這不會造成什么問題,但是一旦文檔大起來,處理DOM就會變得相當(dāng)費時費力。特別是其對于內(nèi)存的需求,也將是成倍的增長,以至于在某些應(yīng)用中使用DOM是一件很不劃算的事(比如在applet中)。這時候,一個較好的替代解決方法就是SAX。
SAX在概念上與DOM完全不同。首先,不同于DOM的文檔驅(qū)動,它是事件驅(qū)動的,也就是說,它并不需要讀入整個文檔,而文檔的讀入過程也就是SAX的解析過程。所謂事件驅(qū)動,是指一種基于回調(diào)(callback)機制的程序運行方法。(如果你對Java新的代理事件模型比較清楚的話,就會很容易理解這種機制了)
在XMLReader接受XML文檔,在讀入XML文檔的過程中就進(jìn)行解析,也就是說讀入文檔的過程和解析的過程是同時進(jìn)行的,這和DOM區(qū)別很大。解析開始之前,需要向XMLReader注冊一個ContentHandler,也就是相當(dāng)于一個事件監(jiān)聽器,在ContentHandler中定義了很多方法,比如startDocument(),它定制了當(dāng)在解析過程中,遇到文檔開始時應(yīng)該處理的事情。當(dāng)XMLReader讀到合適的內(nèi)容,就會拋出相應(yīng)的事件,并把這個事件的處理權(quán)代理給ContentHandler,調(diào)用其相應(yīng)的方法進(jìn)行響應(yīng)。
這樣泛泛的說來或許有些不容易理解,別急,后面的例子會讓你明白SAX的解析過程。看看這個簡單XML文件:
<POEM>
<AUTHOR>Ogden Nash</AUTHOR>
<TITLE>Fleas</TITLE>
<LINE>Adam</LINE>
</POEM>
當(dāng)XMLReader讀到<POEM>標(biāo)簽時,就會調(diào)用ContentHandler.startElement()方法,并把標(biāo)簽名POEM作為參數(shù)傳遞過去。在你實現(xiàn)的startElement()方法中需要做相應(yīng)的動作,以處理當(dāng)<POEM>出現(xiàn)時應(yīng)該做的事情。各個事件隨著解析的過程(也就是文檔讀入的過程)一個個順序的被拋出,相應(yīng)的方法也會被順序的調(diào)用,最后,當(dāng)解析完成,方法都被調(diào)用后,對文檔的處理也就完成了。下面的這個表,列出了在解析上面的那個XML文件的時候,順序被調(diào)用的方法:
ContentHandler實際上是一個接口,當(dāng)處理特定的XML文件的時候,就需要為其創(chuàng)建一個實現(xiàn)了ContentHandler的類來處理特定的事件,可以說,這個實際上就是SAX處理XML文件的核心。下面我們來看看定義在其中的一些方法:
void characters(char[] ch, int start, int length):
這個方法用來處理在XML文件中讀到字符串,它的參數(shù)是一個字符數(shù)組,以及讀到的這個字符串在這個數(shù)組中的起始位置和長度,我們可以很容易的用String類的一個構(gòu)造方法來獲得這個字符串的String類:String charEncontered=new String(ch,start,length)。
void startDocument():
當(dāng)遇到文檔的開頭的時候,調(diào)用這個方法,可以在其中做一些預(yù)處理的工作。
void endDocument():
和上面的方法相對應(yīng),當(dāng)文檔結(jié)束的時候,調(diào)用這個方法,可以在其中做一些善后的工作。
void startElement(java.lang.String namespaceURI, java.lang.String localName, java.lang.String qName, Attributes atts)
當(dāng)讀到一個開始標(biāo)簽的時候,會觸發(fā)這個方法。在SAX1.0版本中并不支持名域,而在新的2.0版本中提供了對名域的支持,這兒參數(shù)中的namespaceURI就是名域,localName是標(biāo)簽名,qName是標(biāo)簽的修飾前綴,當(dāng)沒有使用名域的時候,這兩個參數(shù)都未null。而atts是這個標(biāo)簽所包含的屬性列表。通過atts,可以得到所有的屬性名和相應(yīng)的值。要注意的是SAX中一個重要的特點就是它的流式處理,在遇到一個標(biāo)簽的時候,它并不會紀(jì)錄下以前所碰到的標(biāo)簽,也就是說,在startElement()方法中,所有你所知道的信息,就是標(biāo)簽的名字和屬性,至于標(biāo)簽的嵌套結(jié)構(gòu),上層標(biāo)簽的名字,是否有子元屬等等其它與結(jié)構(gòu)相關(guān)的信息,都是不得而知的,都需要你的程序來完成。這使得SAX在編程處理上沒有DOM來得那么方便。
void endElement(java.lang.String namespaceURI, java.lang.String localName, java.lang.String qName)
這個方法和上面的方法相對應(yīng),在遇到結(jié)束標(biāo)簽的時候,調(diào)用這個方法。
因為ContentHandler是一個接口,在使用的時候可能會有些不方便,因而,SAX中還為其制定了一個Helper類:DefaultHandler,它實現(xiàn)了這個接口,但是其所有的方法體都為空,在實現(xiàn)的時候,你只需要繼承這個類,然后重載相應(yīng)的方法即可。
OK,到這兒SAX的基本知識已經(jīng)差不多講完了,下面我們來看看兩個具體的例子,以更好的理解SAX地用法。
SAX編程實例
我們還是沿用講DOM的時候使用的那個文檔例子,但首先,我們先看一個簡單一些的應(yīng)用,我們希望能夠統(tǒng)計一下XML文件中各個標(biāo)簽出現(xiàn)的次數(shù)。這個例子很簡單,但是足以闡述SAX編程的基本思路了。
一開始當(dāng)然還是import語句了:
import org.xml.sax.helpers.DefaultHandler;
import javax.xml.parsers.*;
import org.xml.sax.*;
import org.xml.sax.helpers.*;
import java.util.*;
import java.io.*;
然后,我們創(chuàng)建一個繼承于DefaultHandler的類,具體的程序邏輯在這兒可以暫且放在一邊,要注意的是程序的結(jié)構(gòu):
public class SAXCounter extends DefaultHandler {
private Hashtable tags; //這個Hashtable用來記錄tag出現(xiàn)的次數(shù)
// 處理文檔前的工作\
public void startDocument() throws SAXException {
tags = new Hashtable();//初始化Hashtable
}
//對每一個開始元屬進(jìn)行處理\
public void startElement(String namespaceURI, String localName,
String rawName, Attributes atts)
throws SAXException
{
String key = localName;
Object value = tags.get(key);
if (value == null) {
// 如果是新碰到的標(biāo)簽,這在Hastable中添加一條記錄
tags.put(key, new Integer(1));
} else {
// 如果以前碰到過,得到其計數(shù)值,并加1
int count = ((Integer)value).intValue();
count++;
tags.put(key, new Integer(count));
}
}
//解析完成后的統(tǒng)計工作\
public void endDocument() throws SAXException {
Enumeration e = tags.keys();
while (e.hasMoreElements()) {
String tag = (String)e.nextElement();
int count = ((Integer)tags.get(tag)).intValue();
System.out.println("Tag <" + tag + "> occurs " + count
+ " times");
}
}
//程序入口,用來完成解析工作\
static public void main(String[] args) {
String filename = null;
boolean validation = false;
filename="links.xml";
SAXParserFactory spf = SAXParserFactory.newInstance();
XMLReader xmlReader = null;
SAXParser saxParser=null;
try {
// 創(chuàng)建一個解析器SAXParser對象\
saxParser = spf.newSAXParser();
// 得到SAXParser中封裝的SAX XMLReader
xmlReader = saxParser.getXMLReader();
} catch (Exception ex) {
System.err.println(ex);
System.exit(1);
}
try {
//使用指定的ContentHandler,解析給XML文件,這兒要注意的是,為了
//程序的簡單起見,這兒將主程序和ContentHandler放在了一起。實際上
//main方法中所作的所有事情,都與ContentHandler無關(guān)。
xmlReader.parse(new File(filename),new SAXCounter());
} catch (SAXException se) {
System.err.println(se.getMessage());
System.exit(1);
} catch (IOException ioe) {
System.err.println(ioe);
System.exit(1);
}
}
}
我們來看看這段程序作了些什么,在main()方法中,主要做的就是創(chuàng)建解析器,然后解析文檔。實際上,在這兒創(chuàng)建SAXParser對象的時候,為了使程序代碼于具體的解析器無關(guān),使用了同DOM中一樣的設(shè)計技巧:通過一個SAXParserFactory類來創(chuàng)建具體的SAXParser對象,這樣,當(dāng)需要使用不同的解析器的時候,要改變的,只是一個環(huán)境變量的值,而程序的代碼可以保持不變。這就是FactoryMethod模式的思想。在這兒不再具體講了,如果還有不明白的,可以參看上面DOM中的解釋,原理是一樣的。
不過在這兒還有一點點要注意的地方,就是SAXParser類和XMLReader類之間的關(guān)系。你可能有些迷糊了吧,實際上SAXParser是JAXP中對XMLReader的一個封裝類,而XMLReader是定義在SAX2.0種的一個用來解析文檔的接口。你可以同樣的調(diào)用SAXParser或者XMLReader中的parser()方法來解析文檔,效果是完全一樣的。不過在SAXParser中的parser()方法接受更多的參數(shù),可以對不同的XML文檔數(shù)據(jù)源進(jìn)行解析,因而使用起來要比XMLReader要方便一些。
這個例子僅僅涉及了SAX的一點皮毛,而下面的這個,可就要高級一些了。下面我們要實現(xiàn)的功能,在DOM的例子中已經(jīng)有實現(xiàn)了,就是從XML文檔中讀出內(nèi)容并格式化輸出,雖然程序邏輯看起來還是很簡單,但是SAX可不比DOM哦,看著吧。
前面說過,當(dāng)遇到一個開始標(biāo)簽的時候,在startElement()方法中,我們并不能夠得到這個標(biāo)簽在XML文檔中所處的位置。這在處理XML文檔的時候是個大麻煩,因為在XML中標(biāo)簽的語義,有一部分是由其所處的位置所決定的。而且在一些需要驗證文檔結(jié)構(gòu)的程序中,這更是一個問題。當(dāng)然,沒有解決不了的問題了,我們可以使用一個棧來實現(xiàn)對文檔結(jié)構(gòu)的紀(jì)錄。
棧的特點是先進(jìn)先出,我們現(xiàn)在的想法是,在startElemnt()方法中用push將這個標(biāo)簽的名字添加到棧中,在endElement()方法中在把它pop出來。我們知道對一個結(jié)構(gòu)良好的XML而言,其嵌套結(jié)構(gòu)是完備的,每一個開始標(biāo)簽總會對應(yīng)一個結(jié)束標(biāo)簽,而且不會出現(xiàn)標(biāo)簽嵌套之間的錯位。因而,每一次startElement()方法的調(diào)用,必然會對應(yīng)一個endElement()方法的調(diào)用,這樣push和pop也是成對出現(xiàn)的,我們只需要分析棧的結(jié)構(gòu),就可以很容易的知道當(dāng)前標(biāo)簽所處在文檔結(jié)構(gòu)中的位置了。
public class SAXReader extends DefaultHandler {
java.util.Stack tags=new java.util.Stack();
//--------------XML Content-------------
String text=null;
String url=null;
String author=null;
String description=null;
String day=null;
String year=null;
String month=null;
//----------------------------------------------
public void endDocument() throws SAXException {
System.out.println("------Parse End--------");
}
public void startDocument() throws SAXException {
System.out.println("------Parse Begin--------");
}
public void startElement(String p0, String p1, String p2, Attributes p3) throws SAXException {
tags.push(p1);
}
public void endElement(String p0, String p1, String p2) throws SAXException {
tags.pop();
//一個link節(jié)點的信息收集齊了,將其格式化輸出\
if (p1.equals("link")) printout();
}
public void characters(char[] p0, int p1, int p2) throws SAXException {
//從棧中得到當(dāng)前節(jié)點的信息
String tag=(String) tags.peek();
if (tag.equals("text")) text=new String(p0,p1,p2);
else if (tag.equals("url")) url=new String(p0,p1,p2);
else if (tag.equals("author")) author=new String(p0,p1,p2);
else if (tag.equals("day")) day=new String(p0,p1,p2);
else if (tag.equals("month")) month=new String(p0,p1,p2);
else if (tag.equals("year")) year=new String(p0,p1,p2);
else if (tag.equals("description")) year=new String(p0,p1,p2);
}
private void printout(){
System.out.print("Content: ");
System.out.println(text);
System.out.print("URL: ");
System.out.println(url);
System.out.print("Author: ");
System.out.println(author);
System.out.print("Date: ");
System.out.println(day+"-"+month+"-"+year);
System.out.print("Description: ");
System.out.println(description);
System.out.println();
}
static public void main(String[] args) {
String filename = null;
boolean validation = false;
filename="links.xml";
SAXParserFactory spf = SAXParserFactory.newInstance();
SAXParser saxParser=null;
try {
saxParser = spf.newSAXParser();
} catch (Exception ex) {
System.err.println(ex);
System.exit(1);
}
try {
saxParser.parse(new File(filename),new SAXReader());
} catch (SAXException se) {
System.err.println(se.getMessage());
System.exit(1);
} catch (IOException ioe) {
System.err.println(ioe);
System.exit(1);
}
}
}
在這兒雖然沒有使用到棧的分析,但實際上棧的分析是一件很容易的事情,應(yīng)為java.util.Stack繼承了java.util.Vector類,而且Stack中的元素是按棧的結(jié)構(gòu)由底至上排列的,因個,我們可以使用Vector類的size()方法來得到Stack的元素個數(shù),還可以使用Vector的get(int)方法來得到具體的每一個元屬。實際上,如果把Stack的元素從底向上逐一排列出來,我們就得到了從XML根節(jié)點到當(dāng)前節(jié)點的一條唯一的路徑,有了這條路徑的信息,文檔的結(jié)構(gòu)就在清楚不過了。
小節(jié)
好了,到這兒為止,我們已經(jīng)掌握了對于XML編程的兩大利器:DOM和SAX,也知道了該如何在一個Java程序中使用它們。DOM編程相對簡單,但是速度比較慢,占用內(nèi)存多,而SAX編程復(fù)雜一些,但是速度快,占用內(nèi)存少。所以,我們應(yīng)該根據(jù)不同的環(huán)境選擇使用不同的方法。大部分的XML應(yīng)用基本都可以用它們來解決。需要特別說明的是,DOM和SAX其實都是語言無關(guān)的,并非Java所獨有,也就是說,只要有相應(yīng)的語言實現(xiàn),DOM和SAX可以應(yīng)用在任何面向?qū)ο蟮恼Z言中。
上面我們介紹了XML文檔的讀入,內(nèi)容提取,以及文檔添加和修改的一些方法。還有一類的問題就是XML文檔的轉(zhuǎn)換,雖然用DOM和SAX也可以解決,但是實現(xiàn)起來很復(fù)雜,而應(yīng)用XSLT就會簡單許多。這個問題,筆者將會在以后的文章中再和大家詳細(xì)討論