xml解析之DOM - 军军小站|张军博客

DOM 是 Document Object Model 的缩写，即文档对象模型。 XML 将数据组织为一颗树，所以 DOM 就是对这颗树的一个对象描叙。通俗的说，就是通过解析 XML 文档，为 XML 文档在逻辑上建立一个树模型，树的节点是一个个对象。我们通过存取这些对象就能够存取 XML 文档的内容。

下面我们来看一个简单的例子，看看在 DOM 中，我们是如何来操作一个 XML 文档的。

这是一个 XML 文档，也是我们要操作的对象：

<?xml version="1.0" encoding="UTF-8"?>

<message>Good-bye serialization, hello Java!</message>

</messages>

下面，我们需要把这个文档的内容解析到一个 Java 对象中去供程序使用，利用 JAXP ，我们只需几行代码就能做到这一点。首先，我们需要建立一个解析器工厂，以利用这个工厂来获得一个具体的解析器对象：

DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

我们在这里使用 DocumentBuilderFacotry 的目的是为了创建与具体解析器无关的程序，当 DocumentBuilderFactory 类的静态方法 newInstance() 被调用时，它根据一个系统变量来决定具体使用哪一个解析器。又因为所有的解析器都服从于 JAXP 所定义的接口，所以无论具体使用哪一个解析器，代码都是一样的。所以当在不同的解析器之间进行切换时，只需要更改系统变量的值，而不用更改任何代码。这就是工厂所带来的好处。这个工厂模式的具体实现，可以参看下面的类图。

DocumentBuilder builder = factory.newDocumentBuilder();

当获得一个工厂对象后，使用它的静态方法 newDocumentBuilder() 方法可以获得一个 DocumentBuilder 对象，这个对象代表了具体的 DOM 解析器。但具体是哪一种解析器，微软的或者 IBM 的，对于程序而言并不重要。

API javax.xml.parsers.DocumentBuilderFactory 1.4

返回 DocumentBuilderFactory 类的一个实例

static DocumentBuilderFactory newInstance()

返回 DocumentBuilder 类的一个实例

DocumentBuilder newDocumentBuilder()

然后，我们就可以利用这个解析器来对 XML 文档进行解析了：

Document doc = builder.parse("src/message.xml");

DocumentBuilder 的 parse() 方法接受一个 XML 文档名作为输入参数，返回一个 Document 对象，这个 Document 对象就代表了一个 XML 文档的树模型。以后所有的对 XML 文档的操作，都与解析器无关，直接在这个 Document 对象上进行操作就可以了。而具体对 Document 操作的方法，就是由 DOM 所定义的了。

API javax.xml.parsers.DocumentBuilder 1.4

解析来自给定文件、 URL 或输入流的 XML 文档，返回解析后的文档

Document parse(File f)
Document parse(String url)
Document parse(InputStream in)

JAXP 支持 W3C 所推荐的 DOM 2 。如果你对 DOM 很熟悉，只需要按照 DOM 的规范来进行方法调用就可以。 DOM 是用来描叙 XML 文档中的数据的模型，引入 DOM 的全部原因就是为了用这个模型来操作 XML 文档的中的数据。 DOM 规范中定义有节点（即对象）、属性和方法，我们通过这些节点的存取来存取 XML 的数据。

上面得到了 Document 对象，使用它的 getElementsByTagName() 方法，我们可以得到一个 NodeList 对象，一个 Node 对象代表了一个 XML 文档中的一个标签元素，而 NodeList 对象，观其名而知其意，所代表的是一个 Node 对象的列表：

NodeList children = doc.getElementsByTagName("message");

我们通过这样一条语句所得到的是 XML 文档中所有 <message> 标签对应的 Node 对象的一个列表。然后，我们可以使用 NodeList 对象的 item() 方法来得到列表中的每一个 Node 对象：

Node child = children.item(0);

当一个 Node 对象被建立之后，保存在 XML 文档中的数据就被提取出来并封装在这个 Node 中了。在这个例子中，要提取 Message 标签内的内容，我们通常会使用 Node 对象的 getNodeValue() 方法： String message = child.getFirstChild().getNodeValue();

注意： 这里还使用了一个 getFirstChild() 方法来获得 message 下面的第一个子 Node 对象。虽然在 message 标签下面除了文本外并没有其它子标签或者属性，但是我们坚持在这里使用 getFirseChild() 方法，这主要和 W3C 对 DOM 的定义有关。 W3C 把标签内的文本部分也定义成一个 Node ，所以先要得到代表文本的那个 Node ，我们才能够使用 getNodeValue() 来获取文本的内容。

现在，既然已经能够从 XML 文件中提取出数据了，就可以把这些数据用在合适的地方，来构筑应用程序。

DOM 的基本对象有 5 个： Document ， Node ， NodeList ， Element 和 Attr 。如下结构图。

Document 对象代表了整个 XML 的文档，所有其它的 Node ，都以一定的顺序包含在 Document 对象之内，排列成一个树形的结构，程序员可以通过遍历这颗树来得到 XML 文档的所有的内容，这也是对 XML 文档操作的起点。我们总是先通过解析 XML 源文件而得到一个 Document 对象，然后再来执行后续的操作。此外， Document 还包含了创建其它节点的方法，比如 createAttribut() 用来创建一个 Attr 对象。它所包含的主要的方法有：

API org.w3c.dom.Document

createAttribute(String) ：用给定的属性名创建一个 Attr 对象，并可在其后使用 setAttributeNode 方法来放置在某一个 Element 对象上面。

createElement(String) ：用给定的标签名创建一个 Element 对象，代表 XML 文档中的一个标签，然后就可以在这个 Element 对象上添加属性或进行其它的操作。

createTextNode(String) ：用给定的字符串创建一个 Text 对象， Text 对象代表了标签或者属性中所包含的纯文本字符串。如果在一个标签内没有其它的标签，那么标签内的文本所代表的 Text 对象是这个 Element 对象的唯一子对象。

getElementsByTagName(String) ：返回一个 NodeList 对象，它包含了所有给定标签名字的标签。

getDocumentElement() ：返回一个代表这个 DOM 树的根节点的 Element 对象，也就是代表 XML 文档根元素的那个对象。

Node 对象是 DOM 结构中最为基本的对象，代表了文档树中的一个抽象的节点。在实际使用的时候，很少会真正的用到 Node 这个对象，而是用到诸如 Element 、 Attr 、 Text 等 Node 对象的子对象来操作文档。 Node 对象为这些对象提供了一个抽象的、公共的根。虽然在 Node 对象中定义了对其子节点进行存取的方法，但是有一些 Node 子对象，比如 Text 对象，它并不存在子节点，这一点是要注意的。 Node 对象所包含的主要的方法有：

API org.w3c.dom.Node

appendChild(org.w3c.dom.Node) ：为这个节点添加一个子节点，并放在所有子节点的最后，如果这个子节点已经存在，则先把它删掉再添加进去。

getFirstChild() ：如果节点存在子节点，则返回第一个子节点，对等的，还有 getLastChild() 方法返回最后一个子节点。

getNextSibling() ：返回在 DOM 树中这个节点的下一个兄弟节点，对等的，还有 getPreviousSibling() 方法返回其前一个兄弟节点。

getNodeName() ：根据节点的类型返回节点的名称。

getNodeType() ：返回节点的类型。

getNodeValue() ：返回节点的值。

hasChildNodes() ：判断是不是存在有子节点。

hasAttributes() ：判断这个节点是否存在有属性。

getOwnerDocument() ：返回节点所处的 Document 对象。

insertBefore(org.w3c.dom.Node new ， org.w3c.dom.Node ref) ：在给定的一个子对象前再插入一个子对象。

removeChild(org.w3c.dom.Node) ：删除给定的子节点对象。

replaceChild(org.w3c.dom.Node new ， org.w3c.dom.Node old) ：用一个新的 Node 对象代替给定的子节点对象。

NodeList 对象，顾名思义，就是代表了一个包含了一个或者多个 Node 的列表。可以简单的把它看成一个 Node 的数组，我们可以通过方法来获得列表中的元素：

API org.w3c.dom. NodeList

GetLength() ：返回列表的长度。

Item(int) ：返回指定位置的 Node 对象。

Element 对象代表的是 XML 文档中的标签元素，继承于 Node ，亦是 Node 的最主要的子对象。在标签中可以包含有属性，因而 Element 对象中有存取其属性的方法，而任何 Node 中定义的方法，也可以用在 Element 对象上面。

API org.w3c.dom. Element

getElementsByTagName(String) ：返回一个 NodeList 对象，它包含了在这个标签中其下的子孙节点中具有给定标签名字的标签。

getTagName() ：返回一个代表这个标签名字的字符串。

getAttribute(String) ：返回标签中给定属性名称的属性的值。在这儿需要主要的是，应为 XML 文档中允许有实体属性出现，而这个方法对这些实体属性并不适用。这时候需要用到 getAttributeNodes() 方法来得到一个 Attr 对象来进行进一步的操作。

getAttributeNode(String) ：返回一个代表给定属性名称的 Attr 对象。

Attr 对象代表了某个标签中的属性。 Attr 继承于 Node ，但是因为 Attr 实际上是包含在 Element 中的，它并不能被看作是 Element 的子对象，因而在 DOM 中 Attr 并不是 DOM 树的一部分，所以 Node 中的 getparentNode() ， getpreviousSibling() 和 getnextSibling() 返回的都将是 null 。也就是说， Attr 其实是被看作包含它的 Element 对象的一部分，它并不作为 DOM 树中单独的一个节点出现。这一点在使用的时候要同其它的 Node 子对象相区别。

需要说明的是，上面所说的 DOM 对象在 DOM 中都是用接口定义的，在定义的时候使用的是与具体语言无关的 IDL 语言来定义的。因而， DOM 其实可以在任何面向对象的语言中实现，只要它实现了 DOM 所定义的接口和功能就可以了。同时，有些方法在 DOM 中并没有定义，是用 IDL 的属性来表达的，当被映射到具体的语言时，这些属性被映射为相应的方法。

    <?xml version="1.0" encoding="UTF-8"?>
<links>
	<link>
		<text>The makers of Java</text>
		<url newWindow="no">http://java.sun.com</url>
		<author>Sun Microsystems</author>
		<date>
			<day>5</day>
			<month>4</month>
			<year>2008</year>
		</date>
		<description>Sun Microsystem's website.</description>
	</link>
	<link>
		<text>Janwer's Homepage</text>
		<url>www.janwer.com</url>
		<author>张峻伟</author>
		<date>
			<day>5</day>
			<month>3</month>
			<year>2008</year>
		</date>
		<description>
			A site from Janwer Zhang, give u lots of suprise!!!
		</description>
	</link>
	<link>
		<text>张峻伟的个人主页</text>
		<url>janwer.iteye.com</url>
		<author>张峻伟</author>
		<date>
			<day>5</day>
			<month>3</month>
			<year>2008</year>
		</date>
		<description>有关J2EE</description>
	</link>
	<link>
		<text>zhang janwer's Homepage</text>
		<url>www.junwei.com</url>
		<author>janwer zhang</author>
		<date>
			<day>6</day>
			<month>3</month>
			<year>2008</year>
		</date>
		<description>A site from J2EE,C#,C++,C and so on!</description>
	</link>
</links>

我们希望在一个名为 server.xml 文件中保存了一些 URL 地址，通过一个简单的程序，我们可以通过 DOM 把这些 URL 读出并显示出来，也可以反过来向这个 XML 文件中写入加入的 URL 地址。

    package cn.janwer.xml;

import javax.xml.parsers.*;
import org.w3c.dom.*;

public class XmlRead {
	public static void main(String args[]) {
		try {
			DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
			DocumentBuilder builder = factory.newDocumentBuilder();
			Document doc = builder.parse("src/server.xml");
			doc.normalize(); //以去掉XML文档中作为格式化内容的空白
			/**
			 * XML文档中的空白符也会被作为对象映射在DOM树中。
			 * 因而，直接调用Node方法的 getChildNodes方法有时候会有些问题，
			 * 有时不能够返回所期望的NodeList对象。
			 * 解决的办法是使用Element的 getElementByTagName(String)，
			 * 返回的NodeLise就是所期待的对象了。然后，可以用item()方法提取想要的元素。 
			 */
			NodeList links = doc.getElementsByTagName("link");
			for (int i = 0; i < links.getLength(); i++) {
				Element link = (Element) links.item(i);
				System.out.print("Content: ");
				System.out.println(link.getElementsByTagName("text").item(0)
						.getFirstChild().getNodeValue());
				System.out.print("URL: ");
				System.out.println(link.getElementsByTagName("url").item(0)
						.getFirstChild().getNodeValue());
				System.out.print("Author: ");
				System.out.println(link.getElementsByTagName("author").item(0)
						.getFirstChild().getNodeValue());
				System.out.print("Date: ");
				Element linkdate = (Element) link.getElementsByTagName("date")
						.item(0);
				String day = linkdate.getElementsByTagName("day").item(0)
						.getFirstChild().getNodeValue();
				String month = linkdate.getElementsByTagName("month").item(0)
						.getFirstChild().getNodeValue();
				String year = linkdate.getElementsByTagName("year").item(0)
						.getFirstChild().getNodeValue();
				System.out.println(day + "-" + month + "-" + year);
				System.out.print("Description: ");
				System.out.println(link.getElementsByTagName("description")
						.item(0).getFirstChild().getNodeValue().trim());
				System.out.println();
			}
		} catch (Exception e) {
			e.printStackTrace();
		}

	}
}

下面的内容，就是在修改了 DOM 树后重新写入到 XML 文档中去的问题了。这个程序名为 Xmlwrite.java 。在 JAXP1.0 版本中，并没有直接的类和方法能够处理 XML 文档的写入问题，需要借助其它包中的一些辅助类。而在 JAXP1.1 版本中，引入了对 XSLT 的支持，所谓 XSLT ，就是对 XML 文档进行变换（ Translation ）后，得到一个新的文档结构。利用这个新加入的功能，我们就能够很方便的把新生成或者修改后的 DOM 树从新写回到 XML 文件中去了，下面我们来看看代码的实现，这段代码的主要功能是向 links.xml 文件中加入一个新的 link 节点。

我们希望在上面的 XML 文件中加入一个新的 link 节点，因而首先还是要读入 links.xml 文件，构建一个 DOM 树，然后再对这个 DOM 树进行修改（添加节点），最后把修改后的 DOM 写回到 links.xml 文件中：

DocumentBuilderFactory factory = DocumentBuilderFactory. newInstance ();

DocumentBuilder builder = factory.newDocumentBuilder();

Document doc = builder.parse("src/server.xml");

doc.normalize();

// --- 取得变量 ----

String text = "zhang janwer's Homepage";

String url = "www.junwei.com";

String author = "janwer zhang";

String discription = "A site from J2EE,C#,C++,C and so on!";

为了看清重点，简化程序，我们把要加入的内容硬编码到记忆 String 对象中，而实际操作中，往往利用一个界面来提取用户输入，或者通过 JDBC 从数据库中提取想要的内容。

Text textseg;

Element link=doc.createElement("link");

首先应该明了的是，无论什么类型的 Node ， Text 型的也好， Attr 型的也好， Element 型的也好，它们的创建都是通过 Document 对象中的 createXXX() 方法来创建的（ XXX 代表具体要创建的类型）。

创建节点的过程可能有些千篇一律，但需要注意的地方是，对 Element 中所包含的 text （在 DOM 中，这些 text 也是代表了一个 Node 的，因此也必须为它们创建相应的 node ），不能直接用 Element 对象的 setNodeValue() 方法来设置这些 text 的内容，而需要用创建的 Text 对象的 setNodeValue() 方法来设置文本，这样才能够把创建的 Element 和其文本内容添加到 DOM 树中。看看前面的代码，你会更好的理解这一点：

doc.getDocumentElement().appendChild(link);

最后，不要忘记把创建好的节点添加到 DOM 树中。 Document 类的 getDocumentElement() 方法，返回代表文档根节点的 Element 对象。在 XML 文档中，根节点一定是唯一的。

TransformerFactory tFactory =TransformerFactory.newInstance();

Transformer transformer = tFactory.newTransformer();

DOMSource source = new DOMSource(doc);

StreamResult result = new StreamResult(new java.io.File("links.xml"));

transformer.transform(source, result);

然后就是用 XSLT 把 DOM 树输出了。这里的 TransformerFactory 也同样应用了工厂模式，使得具体的代码同具体的变换器无关。实现的方法和 DocumentBuilderFactory 相同，这儿就不赘述了。 Transformer 类的 transfrom 方法接受两个参数、一个数据源 Source 和一个输出目标 Result 。这里分别使用的是 DOMSource 和 StreamResult ，这样就能够把 DOM 的内容输出到一个输出流中，当这个输出流是一个文件的时候， DOM 的内容就被写入到文件中去了。

    package cn.janwer.xml;

import javax.xml.parsers.*;
import javax.xml.transform.*;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import org.w3c.dom.*;

public class Xmlwriter {
	public static void main(String args[]) {
		try {
			DocumentBuilderFactory factory = DocumentBuilderFactory
					.newInstance();
			DocumentBuilder builder = factory.newDocumentBuilder();
			Document doc = builder.parse("src/server.xml");
			doc.normalize();
			// ---取得变量----
			String text = "zhang janwer's Homepage";
			String url = "www.junwei.com";
			String author = "janwer zhang";
			String discription = "A site from J2EE,C#,C++,C and so on!";
			// -------------
			Text textseg;
			Element link = doc.createElement("link");

			Element linktext = doc.createElement("text");
			textseg = doc.createTextNode(text);
			linktext.appendChild(textseg);
			link.appendChild(linktext);

			Element linkurl = doc.createElement("url");
			textseg = doc.createTextNode(url);
			linkurl.appendChild(textseg);
			link.appendChild(linkurl);

			Element linkauthor = doc.createElement("author");
			textseg = doc.createTextNode(author);
			linkauthor.appendChild(textseg);
			link.appendChild(linkauthor);

			java.util.Calendar rightNow = java.util.Calendar.getInstance();
			String day = Integer.toString(rightNow.get(java.util.Calendar.DAY_OF_MONTH));
			String month = Integer.toString(rightNow.get(java.util.Calendar.MONTH));
			String year = Integer.toString(rightNow.get(java.util.Calendar.YEAR));
			Element linkdate = doc.createElement("date");

			Element linkdateday = doc.createElement("day");
			textseg = doc.createTextNode(day);
			linkdateday.appendChild(textseg);

			Element linkdatemonth = doc.createElement("month");
			textseg = doc.createTextNode(month);
			linkdatemonth.appendChild(textseg);

			Element linkdateyear = doc.createElement("year");
			textseg = doc.createTextNode(year);
			linkdateyear.appendChild(textseg);

			linkdate.appendChild(linkdateday);
			linkdate.appendChild(linkdatemonth);
			linkdate.appendChild(linkdateyear);
			link.appendChild(linkdate);

			Element linkdiscription = doc.createElement("description");
			textseg = doc.createTextNode(discription);
			linkdiscription.appendChild(textseg);
			link.appendChild(linkdiscription);

			doc.getDocumentElement().appendChild(link);

			TransformerFactory tFactory = TransformerFactory.newInstance();
			Transformer transformer = tFactory.newTransformer();
			DOMSource source = new DOMSource(doc);
			StreamResult result = new StreamResult(
					new java.io.File("src/server.xml"));
			transformer.transform(source, result);
		} catch (Exception e) {
			e.printStackTrace();
		}
	}
}

编辑 XML 文档总结：

1. 更改节点数据

Node.setNodeValue(elemValue);

2. 添加节点

String totalString = new Double(total).toString();

Node totalNode = doc.createTextNode(totalString);

//Document 对象创建新的文本节点，该节点带有作为值的 totalString

Element totalElement = doc.createElement("total");

// 创建新元素 total

totalElement.appendChild(totalNode);

// 将节点添加到新的 total 元素。

thisOrder.insertBefore(totalElement, thisOrder.getFirstChild());

// 将新元素添加到 Document ，指定新的 Node ，然后指定新 Node 在 Node 之前

3. 除去节点

Node deadNode = thisOrderItem.getParentNode().removeChild(thisOrderItem);

4. 替换节点

Element backElement = doc.createElement("backordered");

// 创建新元素 backordered

Node deadNode = thisOrderItem.getParentNode().replaceChild(backElement,thisOrderItem);

5. 创建和设置属性

Element backElement = doc.createElement("backordered");

// 创建新元素 backordered

backElement.setAttributeNode(doc.createAttribute("itemid"));

// 创建新属性 itemid

String itemIdString = thisOrderItem.getAttributeNode("itemid").getNodeValue();

// 取得 thisOrderItem 的属性 itemid 的值

backElement.setAttribute("itemid", itemIdString);

// 设置 backElement 的属性 item 的值 , 可以省略 createAttribute

Node deadNode = thisOrderItem.getParentNode().replaceChild(backElement,thisOrderItem);

6. 除去属性

Element thisOrder = (Element)orders.item(orderNum);

Element customer = (Element)thisOrder.getElementsByTagName("cusomertid").item(0);

customer.removeAttribute("limit");

// 去除属性 limit

xml解析之DOM

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义