热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

15.XML解析

1.什么是XML?XML指可扩展标记语言(EXtensibleMarkupLanguage)。a.XML是一种很像HTML的标记语言。b


1. 什么是 XML?

XML 指可扩展标记语言(EXtensible Markup Language)。
a. XML 是一种很像HTML的标记语言。
b. XML 的设计宗旨是传输数据,而不是显示数据
c. XML 标签没有被预定义。您需要自行定义标签。
d. XML 被设计为具有自我描述性。
e. XML 是 W3C 的推荐标准。


2. XML 和 HTML 之间的差异

XML 不是 HTML 的替代
a. XML 和 HTML 为不同的目的而设计:
b. XML 被设计用来传输和存储数据,其焦点是数据的内容。
c. HTML 被设计用来显示数据,其焦点是数据的外观。
d. HTML 旨在显示信息,而 XML 旨在传输信息。


3. 通过 XML 可以自定义标签

<note>
<to>Tove</to>
<from>Jani</from>
<heading>Reminder</heading>
<body>Don&#39;t forget me this weekend!</body>
</note>

上面实例中的标签没有在任何 XML 标准中定义过&#xff08;比如 &#xff09;。这些标签是由 XML 文档的创作者发明的
这是因为 XML 语言没有预定义的标签。HTML 中使用的标签都是预定义的。HTML 文档只能使用在 HTML 标准中定义过的标签&#xff08;如

等等&#xff09;。XML 允许创作者定义自己的标签和自己的文档结构


4. python中对XML的解析

XML比JSON复杂&#xff0c;在Web中应用也不如以前多了&#xff0c;不过仍有很多地方在用&#xff0c;所以&#xff0c;有必要了解如何操作XML。
python有三种方法解析XML&#xff0c;SAX&#xff0c;DOM&#xff0c;以及 ElementTree
本篇中使用到的XML实例文件如下&#xff1a;movies.xml

# movies.xml
<collection shelf&#61;"New Arrivals">
<movie title&#61;"Enemy Behind">
<type>War, Thriller</type>
<format>DVD</format>
<year>2003</year>
<rating>PG</rating>
<stars>10</stars>
<description>Talk about a US-Japan war</description>
</movie>
<movie title&#61;"Transformers">
<type>Anime, Science Fiction</type>
<format>DVD</format>
<year>1989</year>
<rating>R</rating>
<stars>8</stars>
<description>A schientific fiction</description>
</movie>
<movie title&#61;"Trigun">
<type>Anime, Action</type>
<format>DVD</format>
<episodes>4</episodes>
<rating>PG</rating>
<stars>10</stars>
<description>Vash the Stampede!</description>
</movie>
<movie title&#61;"Ishtar">
<type>Comedy</type>
<format>VHS</format>
<rating>PG</rating>
<stars>2</stars>
<description>Viewable boredom</description>
</movie>
</collection>

5. 使用 SAX方式 解析 xml

SAX 是一种基于事件驱动的API。
利用 SAX 解析 XML 文档牵涉到两个部分: 解析器事件处理器
解析器&#xff1a;负责读取 XML 文档&#xff0c;并向事件处理器发送事件&#xff0c;如元素开始跟元素结束事件。
事件处理器&#xff1a;负责对事件作出响应&#xff0c;对传递的 XML 数据进行处理
 (1) 对大型文件进行处理&#xff1b;
 (2) 只需要文件的部分内容&#xff0c;或者只需从文件中得到特定信息&#xff1b;
 (3) 想建立自己的对象模型的时候。
在 python 中使用 SAX 方式处理 xml 要先引入 xml.sax 中的 parse 函数&#xff0c;还有 xml.sax.handler 中的 ContentHandler

import xml.sax
class MovieHandler(xml.sax.ContentHandler):
def __init__(self):
self.CurrentData &#61; ""
self.type &#61; ""
self.format &#61; ""
self.year &#61; ""
self.rating &#61; ""
self.stars &#61; ""
self.description &#61; ""
# 元素开始调用 &#61;> 遇到XML开始标签时调用, tag是标签的名字, attributes是标签的属性字典值
def startElement(self, tag, attributes):
self.CurrentData &#61; tag
if tag &#61;&#61; "movie":
print(&#39;&#39;)
print("Title:", attributes["title"])
# 元素结束调用 &#61;> 遇到XML结束标签时调用
def endElement(self, tag):
if self.CurrentData &#61;&#61; "type":
print("Type:", self.type)
elif self.CurrentData &#61;&#61; "format":
print("Format:", self.format)
elif self.CurrentData &#61;&#61; "year":
print("Year:", self.year)
elif self.CurrentData &#61;&#61; "rating":
print("Rating:", self.rating)
elif self.CurrentData &#61;&#61; "stars":
print("Stars:", self.stars)
elif self.CurrentData &#61;&#61; "description":
print("Description:", self.description)
self.CurrentData &#61; ""
# 读取字符时调用
def characters(self, content):
if self.CurrentData &#61;&#61; "type":
self.type &#61; content
elif self.CurrentData &#61;&#61; "format":
self.format &#61; content
elif self.CurrentData &#61;&#61; "year":
self.year &#61; content
elif self.CurrentData &#61;&#61; "rating":
self.rating &#61; content
elif self.CurrentData &#61;&#61; "stars":
self.stars &#61; content
elif self.CurrentData &#61;&#61; "description":
self.description &#61; content
if __name__ &#61;&#61; "__main__":
# 创建一个 XMLReader
parser &#61; xml.sax.make_parser()
# 关闭命名空间
parser.setFeature(xml.sax.handler.feature_namespaces, 0)
# 重写 ContextHandler
parser.setContentHandler(MovieHandler())
# 解析xml文档
parser.parse("movies.xml")

在这里插入图片描述


6. 使用 DOM方式 解析 xml

文件对象模型&#xff08;Document Object Model&#xff0c;简称DOM&#xff09;&#xff0c;是W3C组织推荐的处理可扩展置标语言的标准编程接口。
一个 DOM 的解析器在解析一个XML文档时&#xff0c;一次性读取整个文档&#xff0c;把文档中所有元素保存在内存中的一个树结构里&#xff0c;之后你可以利用DOM 提供的不同的函数来读取或修改文档的内容和结构&#xff0c;也可以把修改过的内容写入xml文件。
DOM会把整个XML读入内存&#xff0c;解析为树&#xff0c;因此占用内存大&#xff0c;解析慢&#xff0c;优点是可以任意遍历树的节点。
在 python 中使用 DOM 方式处理 xml 则要通过 xml.dom.minidom 来解析 xml 文件。

import xml.dom.minidom
if __name__ &#61;&#61; "__main__":
# 使用minidom解析器打开XML文档
DOMTree &#61; xml.dom.minidom.parse("movies.xml")
collection &#61; DOMTree.documentElement
if collection.hasAttribute("shelf"):
print("Root element : %s" % collection.getAttribute("shelf"))
# 在集合中获取所有电影(整个movie节点项)
movies &#61; collection.getElementsByTagName("movie")
# 打印每部电影的详细信息
for movie in movies:
print(&#39;&#39;)
if movie.hasAttribute("title"):
print("Title: %s" % movie.getAttribute("title"))
type &#61; movie.getElementsByTagName(&#39;type&#39;)[0]
print("Type: %s" % type.childNodes[0].data)
format &#61; movie.getElementsByTagName(&#39;format&#39;)[0]
print("Format: %s" % format.childNodes[0].data)
rating &#61; movie.getElementsByTagName(&#39;rating&#39;)[0]
print("Rating: %s" % rating.childNodes[0].data)
description &#61; movie.getElementsByTagName(&#39;description&#39;)[0]
print("Description: %s" % description.childNodes[0].data)

在这里插入图片描述


7. 使用 ElementTree方式 解析xml

xml.etree.ElementTree&#xff08;简称ET&#xff09;模块提供了一个轻量级、Pythonic的API&#xff0c;同时还有一个高效的C语言实现&#xff0c;即xml.etree.cElementTree。与DOM相比&#xff0c;ET的速度更快&#xff0c;API使用更直接、方便与SAX相比&#xff0c;ET.iterparse函数同样提供了按需解析的功能&#xff0c;不会一次性在内存中读入整个文档ET的性能与SAX模块大致相仿&#xff0c;但是它的API更加高层次&#xff0c;用户使用起来更加便捷

Element类型是一种灵活的容器对象&#xff0c;用于在内存中存储结构化数据。
[注意] xml.etree.ElementTree模块在应对恶意结构数据时显得并不安全。
每个element对象都具有以下属性&#xff1a;
  1. tag&#xff1a;string对象&#xff0c;表示数据代表的种类。
  2. attrib&#xff1a;dictionary对象&#xff0c;表示附有的属性。
  3. text&#xff1a;string对象&#xff0c;表示element的内容。
  4. tail&#xff1a;string对象&#xff0c;表示element闭合之后的尾迹。
<tag attrib1&#61;1>text</tag>tail
1 2 3 4

import xml.etree.ElementTree as ET
tree &#61; ET.parse(&#39;movies.xml&#39;)
root &#61; tree.getroot()
# print(root.tag, &#39;,&#39;, root.attrib) # 打印根元素标签及属性
# child就是movie结点
# children是moive结点的项item
for Node in root.findall("movie"):
print(&#39;&#39;)
for item in Node:
print(item.tag, &#39;&#xff1a;&#39;, item.text)

在这里插入图片描述


8. 写在最后

更多详细API及demo请参考官网网站&#xff1a;
https://docs.python.org/3.9/library/markup.html#structured-markup-processing-tools







推荐阅读
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 闭包一直是Java社区中争论不断的话题,很多语言都支持闭包这个语言特性,闭包定义了一个依赖于外部环境的自由变量的函数,这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例,介绍了闭包的定义和特性。 ... [详细]
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • VScode格式化文档换行或不换行的设置方法
    本文介绍了在VScode中设置格式化文档换行或不换行的方法,包括使用插件和修改settings.json文件的内容。详细步骤为:找到settings.json文件,将其中的代码替换为指定的代码。 ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 本文介绍了在Linux下安装Perl的步骤,并提供了一个简单的Perl程序示例。同时,还展示了运行该程序的结果。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
author-avatar
-而我知道阿信很忙
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有