使用Python处理XML格式数据的方法介绍

作者：水灵ruru | 来源：互联网 | 2017-05-14 02:44

这篇文章主要介绍了Python处理XML格式数据的方法,结合实例形式详细分析了Python针对xml格式文件的编码处理、常见错误及相关操作注意事项,需要的朋友可以参考下

本文实例讲述了Python处理XML格式数据的方法。分享给大家供大家参考，具体如下：

这里的操作是基于Python3平台。

在使用Python处理XML的问题上，首先遇到的是编码问题。

Python并不支持gb2312，所以面对encoding="gb2312"的XML文件会出现错误。Python读取的文件本身的编码也可能导致抛出异常，这种情况下打开文件的时候就需要指定编码。此外就是XML中节点所包含的中文。

我这里呢，处理就比较简单了，只需要修改XML的encoding头部。

#!/usr/bin/env python
import os, sys
import re
def replaceXmlEncoding(filepath, oldEncoding=&＃39;gb2312&＃39;, newEncoding=&＃39;utf-8&＃39;):
  f = open(filepath, mode=&＃39;r&＃39;)
  cOntent= f.read()
  cOntent= re.sub(oldEncoding, newEncoding, content)
  f.close()
  f = open(filepath, mode=&＃39;w&＃39;)
  f.write(content)
  f.close()
if name == "main":
  replaceXmlEncoding(&＃39;./ActivateAccount.xml&＃39;)

接着是使用xml.etree.ElementTree来操作XML文件。

在一个类里面定义call函数可以使得该类可调用，比如下面代码的最后几行，在main函数中。这也很突出地体现了在Python的世界里，一切都是对象，包括对象本身：）

一直觉得main函数用来测试真是蛮好用的。

#!/usr/bin/env python
import os, re
import xml.etree.ElementTree as etree
Locale_Path = "./locale.txt"
class xmlExtractor(object):
  def init(self):
    pass
  def call(self, filepath):
    retDict = {}
    f = open(filepath, &＃39;r&＃39;)
    Line = len(open(filepath, &＃39;r&＃39;).readlines())
    retDict[&＃39;Line&＃39;] = Line
    tree = etree.parse(f)
    root = tree.find("ResItem")
    Id = root.get("ID")
    retDict[&＃39;Title&＃39;] = Id
    resItemCnt = len(list(root.findall("ResItem"))) + 1
    retDict[&＃39;ResItemCount&＃39;] = resItemCnt
    retDict[&＃39;ChineseTip&＃39;] = &＃39;None&＃39;
    for child in root:
      attrDict = child.attrib
      keyword = "Name"
      if(keyword in attrDict.keys() and attrDict[&＃39;Name&＃39;] == "Caption"):
        if len(child.attrib[&＃39;Value&＃39;]) > 1:
          if child.attrib[&＃39;Value&＃39;][0] == &＃39;~&＃39;:
            title = child.attrib[&＃39;Value&＃39;][1:]
          else:
            title = child.attrib[&＃39;Value&＃39;][0:]
          #print(title)
          chs = open(Locale_Path).read()
          pattern = &＃39;[^>]+>&＃39;
          m = re.search(pattern, chs)
          if m != None:
            realTitle = re.sub(&＃39;<[^>]+>&＃39;, &＃39;&＃39;, m.group(0))
            retDict[&＃39;ChineseTip&＃39;] = realTitle
    f.close()
    return retDict
if name == "main":
  fo = xmlExtractor()
  d = fo(&＃39;./ActivateAccount.xml&＃39;)
  print(d)

最后，就是入口文件，导入上面两个文件，使用xml.dom和os.listdir来递归处理XML文件，并生成一个结果集。

一直觉得Python的UnboundLocalError错误挺有意思的，不知道是不是符号表的覆盖问题。

#!/usr/bin/env python
from xmlExtractor import *
from replaceXmlEncoding import *
from xml.dom import minidom,Node
doc = minidom.Document()
extractor = xmlExtractor()
totalLines = 0
totalResItemCnt = 0
totalXmlFileCnt = 0
totalErrorCnt = 0
errorFileList = []
xmlRoot = doc.createElement("XmlResourceFile")
doc.appendChild(xmlRoot)
def myWalkDir(level, path):
  global doc, extractor, totalLines, totalResItemCnt, totalXmlFileCnt
  global totalErrorCnt, errorFileList
  global xmlRoot
  for i in os.listdir(path):
    if i[-3:] == &＃39;xml&＃39;:
      totalXmlFileCnt += 1
      try:
        #先把xml的encoding由gb2312转换为utf-8
        replaceXmlEncoding(path + &＃39;\\&＃39; + i)
        #再提取xml文档中需要的信息
        info = extractor(path + &＃39;\\&＃39; + i)
        #在上述两行代码没有出现异常的基础上再创建节点
        #print(info)
        #print(type(i))
        xmlNode = doc.createElement("XmlFile")
        xmlRoot.appendChild(xmlNode)
        xmlName = doc.createElement("Filename")
        xmlName.setAttribute(&＃39;Value&＃39;, i)
        #xmlName.appendChild(doc.createTextNode(i))
        xmlNode.appendChild(xmlName)
        filePath = doc.createElement("Filepath")
        filePath.setAttribute(&＃39;Value&＃39;, path[34:])
        #filePath.appendChild(doc.createTextNode(path[1:]))
        xmlNode.appendChild(filePath)
        titleNode = doc.createElement("Title")
        titleNode.setAttribute(&＃39;Value&＃39;, str(info[&＃39;Title&＃39;]))
        #titleNode.appendChild(doc.createTextNode(str(info[&＃39;Title&＃39;])))
        xmlNode.appendChild(titleNode)
        chsNode = doc.createElement("ChineseTip")
        chsNode.setAttribute(&＃39;Value&＃39;, str(info[&＃39;ChineseTip&＃39;]))
        #chsNode.appendChild(doc.createTextNode(str(info[&＃39;Chinese&＃39;])))
        xmlNode.appendChild(chsNode)
        resItemNode = doc.createElement("ResItemCount")
        resItemNode.setAttribute(&＃39;Value&＃39;, str(info[&＃39;ResItemCount&＃39;]))
        #resItemNode.appendChild(doc.createTextNode(str(info[&＃39;ResItemCount&＃39;])))
        xmlNode.appendChild(resItemNode)
        lineNode = doc.createElement("LineCount")
        lineNode.setAttribute(&＃39;Value&＃39;, str(info[&＃39;Line&＃39;]))
        #lineNode.appendChild(doc.createTextNode(str(info[&＃39;Line&＃39;])))
        xmlNode.appendChild(lineNode)
        descNode = doc.createElement("Description")
        descNode.setAttribute(&＃39;Value&＃39;, &＃39;&＃39;)
        #descNode.appendChild(doc.createTextNode(&＃39;&＃39;))
        xmlNode.appendChild(descNode)
      except Exception as errorDetail:
        totalErrorCnt += 1
        errorFileList.append(path + &＃39;\\&＃39; + i)
        print(path + &＃39;\\&＃39; + i, errorDetail)
    if os.path.isdir(path + &＃39;\\&＃39; + i):
      myWalkDir(level+1, path + &＃39;\\&＃39; + i)
if name == "main":
  path = os.getcwd() + &＃39;\\themes&＃39;
  myWalkDir(0, path)
  print(totalXmlFileCnt, totalErrorCnt)
  #print(doc.toprettyxml(indent = "  "))
  resultXml = open("./xmlResourceList.xml", "w")
  resultXml.write(doc.toprettyxml(indent = "  "))
  resultXml.close()

以上就是使用Python处理XML格式数据的方法介绍的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

php
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
php
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
php
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
import
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
php
lua语言闭包、模式匹配、日期、编译、模块的特性及应用

本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值，函数可以作为变量自由传递，也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性，为程序开发带来了便利。 ... [详细]

蜡笔小新 2023-12-14 18:18:21
php
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
php
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
php
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
php
Java序列化对象传给PHP的方法及原理解析

本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]

蜡笔小新 2023-12-14 15:25:15
php
Python如何调用类里面的方法

本文介绍了在Python中调用同一个类中的方法需要加上self参数，并且规范写法要求每个函数的第一个参数都为self。同时还介绍了如何调用另一个类中的方法。详细内容请阅读剩余部分。 ... [详细]

蜡笔小新 2023-12-14 12:52:55
php
Hibernate基础映射

在说Hibernate映射前，我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象，以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]

蜡笔小新 2023-12-14 10:57:47
php
SpringBoot集成前端模版（thymeleaf）的配置步骤

本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤，包括在application.properties配置文件中添加thymeleaf的配置信息，引入thymeleaf的jar包，以及创建PageController并添加index方法。 ... [详细]

蜡笔小新 2023-12-14 10:11:46
php
如何使用PHP向系统日历中添加事件？

本文介绍了如何使用PHP向系统日历中添加事件的方法，通过使用PHP技术可以实现自动添加事件的功能，从而实现全局通知系统和迅速记录工具的自动化。同时还提到了系统exchange自带的日历具有同步感的特点，以及使用web技术实现自动添加事件的优势。 ... [详细]

蜡笔小新 2023-12-14 21:02:28
php
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
php
PHP玩家基地系统毕业设计（附源码、运行环境）的用户登录界面、游戏管理和玩家作品管理

本文介绍了一个PHP玩家基地系统的毕业设计，包括用户登录界面、游戏管理和玩家作品管理等功能。附带源码和运行环境，并提供免费赠送本源代码和数据库的方式，请私信获取详细信息。摘要共计约XXX字。 ... [详细]

蜡笔小新 2023-12-14 19:16:11

水灵ruru

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章