python使用ElementTree处理xml容易犯错的点&美化xml
- 引言
- 代码环境相关
- 先上代码
引言
目前因为需要写一个tool处理xml文件,对于面向浏览器编程的我来说,迅速打开chrome开始搜索关键字 python xml ,然后打开很多都是各种blog,于是随便打开了一篇,参考文章主要有如下两篇:
- Python xml属性/节点/文本的增删改[xml.etree.ElementTree]
- python处理xml文件
这两篇文章都写的不错,尤其是第一篇大佬写的是很详细了。但是因为参考了两篇再加上自己之前零散的记忆,然后我就写出来了一个不work的tool!(黑人问号脸?为什么就不work了呢?我是按照别人说的去写的鸭,为什么呢?)在经过自己内心和行动的不断挣扎之后,我终于弄明白了为什么!
代码环境相关
- os:windows
- ide: vscode
- python: python3.7
- xml文件格式
先上代码
## 0. Get the root node
import xml.etree.ElementTree as ET
import os
tree = ET.parse("d:\\tool\\input.xml")
root = tree.getroot()
## 1. Find target node
##compare with root.getiterator("Regions")
regions = root.findall("Generation/Regions")
查找指定节点的代码需要注意的是
getiterator("regions")
和
findall(Generation/Regions)
,如果在使用findall的时候没有指明路径节点,而是像getiterator那样直接指定节点名称是无法找到regions节点的(踏了很久的坑)
## 2. Remove one node
for region in regions:
for child in region.getchildren():
if child.get("fileName") == "test_1":
region.remove(child)
## 3. Create and Add one node
attribute_dict={"theme":"test","fileName":"test_2"}
region_node = ET.Element("Region",attribute_dict)
attribute_node = ET.Element("Attribute",{"type":"test"})
region_node.append(attribute_node)
indent(region_node) ##pretty xml, defined in step 4
for region in regions:
region.append(region_node)
删除和增加节点的时候需要找到的是你要删除节点的父亲节点,然后通过父亲节点进行删除,不能直接找到想要删除的节点进行删除,因为一旦删除,你就失去了这个节点的指向,无法操作成功!(也是一个坑鸭!)
## 4. pretty xml
def indent(elem, level=0):
i = '\n' + level * ' '
if len(elem):
if not elem.text or not elem.text.strip():
elem.text = i + ' '
if not elem.tail or not elem.tail.strip():
elem.tail = i
for elem in elem:
indent(elem, level+1)
if not elem.tail or not elem.tail.strip():
elem.tail = i
else:
if level and (not elem.tail or not elem.tail.strip()):
elem.tail = i
这个是参考了stackoverflow中的答案,因为ElementTree这个库没有美化xml的功能,添加新的节点之后都会是一行,所以进行美化操作!
以上就是操作xml时候遇到的一些小问题,就给自己做了个总结!菜鸟的踩坑之路鸭好漫长,加油!