Python3将xml文件解析为对象 - 军军小站|张军博客

一、说明

类似json将xml解析为python对象，可以使用第三方库untangle或xmltodict实现。
将以下内容保存为xml2obj.xml，后我我们就使用该文件。
1.第一行的是xml文件的声明，它定义了xml的版本 (1.0)和所使用编码为UTF-8。
2.接下来就是xml文件的内容了，这些内容按一个树状结构进行组织摆放，形式如下：

            
              
                
                  section1 content
                
                
                  section2 content

其中，每一个.叫做一个节点，也叫一个元素，节点可以嵌套放置，也可以并列放置，在嵌套结构中，内外层节点是父子关系，以此类推，最外层的节点都叫做根节点。并列的两节点为兄弟关系。
3.对于每一个节点，一般由Tag、Attribute、Text三部分构成。在country_data.xml中data,country,rank,year这些都是tag。与tag同一尖括弧内右边的是Attribute，比如：name。Text就是两个尖括弧中间夹的东西了。

二、使用untangle将xml文件解析为python对象

pip install untangle

            
              import untangle
#将文件解析成对象
obj = untangle.parse('xml2obj.xml')
#获取

三、使用xmltodict将xml文件解析为python对象

pip install xmltodict

            
              import xmltodict
#将xml文件解析成对象
with open('xml2obj.xml') as fd:
    dict = xmltodict.parse(fd.read())

#获取

四、xml.etree.ElementTree

ElementTree生来就是为了处理XML，它在Python标准库中有两种实现：一种是纯Python实现的，如xml.etree.ElementTree，另一种是速度快一点的xml.etree.cElementTree。注意：尽量使用C语言实现的那种，因为它速度更快，而且消耗的内存更少。
在CODE上查看代码片派生到我的代码片。

            
              try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET
import sys
try:
    tree = ET.parse("xml2obj.xml")  # 打开xml文档
    # root = ET.fromstring(country_string) #从字符串传递xml
    root = tree.getroot()  # 获得root节点
except: # Exception, e:
     print("Error:cannot parse file:xml2obj.xml.")
     sys.exit(1)
print(root.tag, "--+-", root.attrib)
for child in root:
    print(child.tag, "---", child.attrib)

print("*" * 10)
print(root[0][1].text)  # 通过下标访问 )
print(root[0].tag, root[0].text)
print("*" * 10)
for country in root.findall('country'):  # 找到root节点下的所有country节点
    rank = country.find('rank').text  # 子节点下节点rank的值
    name = country.get('name')  # 子节点下属性name的值
    print(name, rank)
    
# 修改xml文件
for country in root.findall('country'):
    rank = int(country.find('rank').text)
    if rank > 50:
        root.remove(country)
        
tree.write('output.xml')

5、xml.dom.*

文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个XML文档时，一次性读取整个文档

            
              from xml.dom.minidom import parse
import xml.dom.minidom
#使用minidom解析器打开XML文档
DOMTree = xml.dom.minidom.parse("xml2obj.xml")
Data = DOMTree.documentElement
if Data.hasAttribute("name"):
    print("name element : %s" % Data.getAttribute("name"))

#在集合中获取所有国家
Countrys = Data.getElementsByTagName("country")

#打印每个国家的详细信息
for Country in Countrys:
    print("*****Country*****")
    if Country.hasAttribute("name"):
        print("name: %s" % Country.getAttribute("name"))
    rank = Country.getElementsByTagName('rank')[0]
    print("rank: %s" % rank.childNodes[0].data)
    year = Country.getElementsByTagName('year')[0]
    print("year: %s" % year.childNodes[0].data)
    gdppc = Country.getElementsByTagName('gdppc')[0]
    print("gdppc: %s" % gdppc.childNodes[0].data)

    for neighbor in Country.getElementsByTagName("neighbor"):
        print(neighbor.tagName, ":", neighbor.getAttribute("name"), neighbor.getAttribute("direction"))

6、xml.dom.*

SAX是一种基于事件驱动的API，利用SAX解析XML牵涉到两个部分：解析器和事件处理器。其中解析器负责读取XML文档，并向事件处理器发送事件，如元素开始跟元素结束事件；而事件处理器则负责对事件作出相应，对传递的XML数据进行处理
ContentHandler类方法介绍
（1）characters(content)方法
调用时机：
从行开始，遇到标签之前，存在字符，content的值为这些字符串。
从一个标签，遇到下一个标签之前，存在字符，content的值为这些字符串。
从一个标签，遇到行结束符之前，存在字符，content的值为这些字符串。
标签可以是开始标签，也可以是结束标签。
（2）startDocument()方法
文档启动的时候调用。
（3）endDocument()方法
解析器到达文档结尾时调用。
（4）startElement(name, attrs)方法
遇到XML开始标签时调用，name是标签的名字，attrs是标签的属性值字典。
（5）endElement(name)方法
遇到XML结束标签时调用。
在CODE上查看代码片派生到我的代码片

            
              import xml.sax 

class CountryHandler(xml.sax.ContentHandler): 
def __init__(self): 
 self.CurrentData = "" 
 self.rank = "" 
 self.year = "" 
 self.gdppc = "" 
 self.neighborname = "" 
 self.neighbordirection = "" 

# 元素开始事件处理 
def startElement(self, tag, attributes): 
 self.CurrentData = tag 
 if tag == "country": 
   print "*****Country*****"
   name = attributes["name"] 
   print "name:", name 
 elif tag == "neighbor": 
   name = attributes["name"] 
   direction = attributes["direction"] 
   print name, "->", direction 

# 元素结束事件处理 
def endElement(self, tag): 
 if self.CurrentData == "rank": 
   print "rank:", self.rank 
 elif self.CurrentData == "year": 
   print "year:", self.year 
 elif self.CurrentData == "gdppc": 
   print "gdppc:", self.gdppc 
 self.CurrentData = "" 
# 内容事件处理 
def characters(self, content): 
 if self.CurrentData == "rank": 
   self.rank = content 
 elif self.CurrentData == "year": 
   self.year = content 
 elif self.CurrentData == "gdppc": 
   self.gdppc = content 
 
if __name__ == "__main__": 
 # 创建一个 XMLReader 
parser = xml.sax.make_parser() 
# turn off namepsaces 
parser.setFeature(xml.sax.handler.feature_namespaces, 0) 

 # 重写 ContextHandler 
Handler = CountryHandler() 
parser.setContentHandler(Handler) 
 
parser.parse("xml2obj.xml")

7、libxml2和lxml解析xml

libxml2是使用C语言开发的xml解析器，是一个基于MIT License的免费开源软件，多种编程语言都有基于它的实现，python中的libxml2模块有点小不足的是：xpathEval()接口不支持类似模板的用法，但不影响使用，因libxml2采用C语言开发的，因此在使用API接口的方式上难免会有点不适应。
在CODE上查看代码片派生到我的代码片

            
              import libxml2
doc = libxml2.parseFile("xml2obj.xml")
for book in doc.xpathEval('//country'):
  if book.content != "":
      print("----------------------")
      print(book.content)

for node in doc.xpathEval("//country/neighbor[@name = 'Colombia']"):
  print(node.name, (node.properties.name, node.properties.content))

doc.freeDoc()

案例

            
              from lxml import etree
import requests
response = requests.get('https://www.baisu.com/).text
tree = etree.HTML(response)
strs = tree.xpath( "//body")
strs = strs[0]
strs = (etree.tostring(strs))    # 不能正常显示中文
strs = (etree.tostring(strs, encoding = "utf-8", pretty_print = True, method = "html")) # 可以正常显示中文
print (strs)

总结
（1）Python中XML解析可用的类库或模块有xml、libxml2 、lxml 、xpath等，需要深入了解的还需参考相应的文档。
（2）每一种解析方式都有自己的优点和缺点，选择前可以综合各个方面的性能考虑。
（3）若有不足，请留言，在此先感谢！

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义