当前位置: 开发笔记 > 编程语言 > 正文

Python标准库之XML

作者：heqiuhao | 来源：互联网 | 2023-09-23 12:05

写在之前带分隔符的文件仅有两维的数据：行&列。如果我们想在程序之间交换数据结构，需要一种方法把层次结构，序列，集合和其它的数

　　写在之前

　　带分隔符的文件仅有两维的数据&＃xff1a;行 & 列。如果我们想在程序之间交换数据结构&＃xff0c;需要一种方法把层次结构&＃xff0c;序列&＃xff0c;集合和其它的数据结构编码成文本。

　　今天要说的 XML 是最突出的处理上述这种转换的标记格式&＃xff0c;它使用标签(tag)分隔数据。XML 在软件领域的用途非常广泛。

　　XML

　　XML 是什么?如果非要对其做一个定义式的说明&＃xff0c;那这里我不得不引用一下 w3school 里面简洁而明快的说明&＃xff1a;

　　XML 指可扩展标记语言(EXtensible Markup Language);

　　XML 是一种标记语言&＃xff0c;类似于 HTML;

　　XML 的设计宗旨是传输数据&＃xff0c;而非显示数据;

　　XML 标签没有被预定义&＃xff0c;需要自行定义标签;

　　XML 被设计为具有自我描述性;

　　XML 是 W3C 的推荐标准。

　　如果你想要详细了解和学习 XML 的话&＃xff0c;可以去阅读 w3school 的 XML 教程即可&＃xff0c;里面讲述的很详细&＃xff0c;在下面我还会引用一些里面的内容。

　　XML 的重要性在于它是用来传输数据的&＃xff0c;因此&＃xff0c;特别是在 Web 编程中我们经常会用到它。有了它&＃xff0c;让数据传输变的更加简单&＃xff0c;这么重要的东西&＃xff0c;我大 Python 当然支持。

　　有大佬曾经说过&＃xff1a;“一个引人关注的东西总会有很多人从不同侧面去研究它”。这个在编程中也同样适用&＃xff0c;所以对于 XML 这个红得发紫的东西&＃xff0c;Python 提供了多种模块来处理。

　　xml.dom.* 模块&＃xff1a;Document Object Model。适合用于处理 DOM API。它能够将 XML 数据在内存中解析成一个树&＃xff0c;然后通过对树的操作来操作 XML。但是这种方式由于将 XML 数据映射到内存中的树&＃xff0c;导致比较慢&＃xff0c;且消耗更多内存。

　　xml.sax.* 模块&＃xff1a;simple API for XML。由于 SAX 以流式读取 XML 文件&＃xff0c;从而速度较快&＃xff0c;占用内存少&＃xff0c;但是在操作上稍微复杂&＃xff0c;需要用户实现回调函数。

　　当然还有一些别的&＃xff0c;比如 xml.parse.expat&＃xff0c;xml.etree.ElementTree 等等&＃xff0c;我就不在列举了&＃xff0c;碰到的时候再去查查&＃xff0c;否则光看这些东西头就大了&＃xff0c;而且无聊的很。

　　遍历查询

　　先要做一个 XML 文档&＃xff0c;我自己想也想不出个啥太好的来&＃xff0c;所以直接用 w3school 中的一个例子&＃xff0c;如下图所示&＃xff1a;

　　上图表示下面的 XML 中的一本书&＃xff1a;

　　Everyday ItalianGiada De Laurentiis200530.00Harry PotterJ K. Rowling200529.99Learning XMLErik T. Ray200339.95

　　将上述的 XML 保存并且命名为 test.xml 文件&＃xff0c;接下来就是以它为对象&＃xff0c;练习各种操作了。

　　>>> import xml.etree.ElementTree as ET>>> tree &＃61; ET.ElementTree(file &＃61; &＃39;test.xml&＃39;)>>> tree

　　上面建立起 XML 解析树对象&＃xff0c;然后通过根节点向下开始读取各个元素(element 对象)。

　　在上述 XML 文档中&＃xff0c;根元素是 bookstore&＃xff0c;它没有属性&＃xff0c;也可以说是属性为空。

　　>>> root &＃61; tree.getroot()>>> root.tag&＃39;bookstore&＃39;>>> root.attrib{}

　　要想将根下面的元素都读取出来&＃xff0c;可以进行如下操作&＃xff1a;

　　>>> for child in root:... print(child.tag,child.attrib)...(&＃39;book&＃39;, {&＃39;category&＃39;: &＃39;COOKING&＃39;})(&＃39;book&＃39;, {&＃39;category&＃39;: &＃39;CHILDREN&＃39;})(&＃39;book&＃39;, {&＃39;category&＃39;: &＃39;WEB&＃39;})

　　也可以像下面这样读取指定元素的信息&＃xff1a;

　　>>> root[0].tag&＃39;book&＃39;>>> root[0].attrib{&＃39;category&＃39;: &＃39;COOKING&＃39;}>>> root[0].text&＃39;\n &＃39;

　　上述的 root[0].text 无内容&＃xff0c;再深入一层&＃xff0c;我们就可以看到内容了&＃xff1a;

　　>>> root[0][0].tag&＃39;title&＃39;>>> root[0][0].attrib{&＃39;lang&＃39;: &＃39;en&＃39;}>>> root[0][0].text&＃39;Everyday Italian&＃39;

　　对于 ElementTree 对象&＃xff0c;有一个 iter() 方法可以对指定名称的子节点进行深度优先遍历&＃xff0c;例如下面这样&＃xff1a;

　　>>> for ele in tree.iter(tag&＃61;&＃39;book&＃39;):... print(ele.tag,ele.attrib)...(&＃39;book&＃39;, {&＃39;category&＃39;: &＃39;COOKING&＃39;})(&＃39;book&＃39;, {&＃39;category&＃39;: &＃39;CHILDREN&＃39;})(&＃39;book&＃39;, {&＃39;category&＃39;: &＃39;WEB&＃39;})

　　上述代码是遍历名称为 book 的节点&＃xff0c;如果不指定节点的话&＃xff0c;就是将所有的元素遍历一遍&＃xff1a;

　　>>> for ele in tree.iter():... print(ele.tag,ele.attrib)...(&＃39;bookstore&＃39;, {})(&＃39;book&＃39;, {&＃39;category&＃39;: &＃39;COOKING&＃39;})(&＃39;title&＃39;, {&＃39;lang&＃39;: &＃39;en&＃39;})(&＃39;author&＃39;, {})(&＃39;year&＃39;, {})(&＃39;price&＃39;, {})(&＃39;book&＃39;, {&＃39;category&＃39;: &＃39;CHILDREN&＃39;})(&＃39;title&＃39;, {&＃39;lang&＃39;: &＃39;en&＃39;})(&＃39;author&＃39;, {})(&＃39;year&＃39;, {})(&＃39;price&＃39;, {})(&＃39;book&＃39;, {&＃39;category&＃39;: &＃39;WEB&＃39;})(&＃39;title&＃39;, {&＃39;lang&＃39;: &＃39;en&＃39;})(&＃39;author&＃39;, {})(&＃39;year&＃39;, {})(&＃39;price&＃39;, {})

　　除了上面的方法外&＃xff0c;还可以通过路径搜索到指定的元素&＃xff0c;然后读取其内容&＃xff0c;这就是 xpath&＃xff0c;关于 xpath 是什么&＃xff0c;在这不多做介绍&＃xff0c;感兴趣的可以去 Google。

　　写在之后

　　今天的文章如果你能坚持看到这&＃xff0c;恭喜你又学到了。前半部分概念的东西有点多&＃xff0c;而且看着还头晕&＃xff0c;这个其实是没办法的事情&＃xff0c;不说概念脑子里形不成概念&＃xff0c;后面的理解就很麻烦。还好后面就是操作了&＃xff0c;还是那句话&＃xff0c;多敲代码&＃xff0c;别光看&＃xff0c;敲几遍记住它。

　　如果你觉得本篇文章对你有帮助的话&＃xff0c;别忘了点个赞&＃xff0c;谢谢。郑州妇科医院×××&＃xff1a;www.zztjfk.com/郑州最好的妇科医院&＃xff1a;www.zztjfk.com/

转:https://blog.51cto.com/14231577/2366332

推荐阅读

process
PHP实现断点续传乱序合并文件的方法和源码

本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因，文件需要分割成多个部分发送，因此无法按顺序接收。文章中提供了merge2.php的源码，通过使用shuffle函数打乱文件读取顺序，实现了乱序合并文件的功能。同时，还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]

蜡笔小新 2023-12-14 04:33:19
process
Voicewo在线语音识别转换jQuery插件的特点和示例

本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件，该插件具有快速、架构、风格、扩展和兼容等特点，适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]

蜡笔小新 2023-12-13 20:01:16
string
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
string
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
byte
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
match
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
jsp
java 线程死锁模拟

1，关于死锁的理解死锁，我们可以简单的理解为是两个线程同时使用同一资源，两个线程又得不到相应的资源而造成永无相互等待的情况。 2，模拟死锁背景介绍：我们创建一个朋友 ... [详细]

蜡笔小新 2023-12-13 19:12:25
jsp
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
jsp
Html5-Canvas实现简易的抽奖转盘效果

本文介绍了如何使用Html5和Canvas标签来实现简易的抽奖转盘效果，同时使用了jQueryRotate.js旋转插件。文章中给出了主要的html和css代码，并展示了实现的基本效果。 ... [详细]

蜡笔小新 2023-12-13 06:02:20
jsp
前端人员必须知道的三个问题及其发展阶段

本文介绍了前端人员必须知道的三个问题，即前端都做哪些事、前端都需要哪些技术，以及前端的发展阶段。初级阶段包括HTML、CSS、JavaScript和jQuery的基础知识。进阶阶段涵盖了面向对象编程、响应式设计、Ajax、HTML5等新兴技术。高级阶段包括架构基础、模块化开发、预编译和前沿规范等内容。此外，还介绍了一些后端服务，如Node.js。 ... [详细]

蜡笔小新 2023-12-12 12:45:59
input
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
yaml
EzPP 0.2发布，新增YAML布局渲染功能

EzPP发布了0.2.1版本，新增了YAML布局渲染功能，可以将YAML文件渲染为图片，并且可以复用YAML作为模版，通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片，让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子，介绍了使用ezpp的基本渲染方法，以及如何使用canvas、text类元素、自定义字体等。 ... [详细]

蜡笔小新 2023-12-11 12:39:10
jsp
Java实现大数乘法（分治算法）

本文介绍了使用Java实现大数乘法的分治算法，包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]

蜡笔小新 2023-12-14 15:43:50
string
利用Visual Basic开发SAP接口程序初探的方法与原理

本文介绍了利用Visual Basic开发SAP接口程序的方法与原理，以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图，在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型，并强调本文主要不讨论SAP R/3函数的开发，而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ... [详细]

蜡笔小新 2023-12-13 10:56:31
bit
文件压缩解压的哈夫曼树实现

本文介绍了使用哈夫曼树实现文件压缩和解压的方法。首先对数据结构课程设计中的代码进行了分析，包括使用时间调用、常量定义和统计文件中各个字符时相关的结构体。然后讨论了哈夫曼树的实现原理和算法。最后介绍了文件压缩和解压的具体步骤，包括字符统计、构建哈夫曼树、生成编码表、编码和解码过程。通过实例演示了文件压缩和解压的效果。本文的内容对于理解哈夫曼树的实现原理和应用具有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-11 14:13:46

heqiuhao

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章