XML快速入门学习笔记

时间：2022-09-30 06:25:20人气：次作者：快盘下载我要评论

[TOC]

0x00 简介概况

答:XML 指可扩展标记语言（EXtensible Markup Language）；且是一种很像HTML的标记语言；设计宗旨是传输数据，而不是显示数据。 XML 标签没有被预定义，您需要自行定义标签，它设计为具有自我描述性。目前，XML 在 Web 中起到的作用不会亚于一直作为 Web 基石的 HTML；XML 是各种应用程序之间进行数据传输的最常用的工具。

XML与HTML的差异对比？

XML 被设计用来设置结构化，传输和存储数据，其焦点是数据的内容。HTML 被设计用来显示数据，其焦点是数据的外观。HTML 旨在显示信息，而 XML 旨在传输信息。

比如下面实例是 Jani 写给 Tove 的便签，存储为 XML：它具有自我描述性,它包含了发送者和接受者的信息，同时拥有标题以及消息主体。

<?xml version="1.0" encoding="UTF-8" ?>
<note>
    <to>Tove</to>
    <from>Jani</from>
    <heading>Reminder</heading>
    <body>Don't forget me this weekend!</body>
</note>

XML构建四种子文件类型:

1.XML File : 基础xml文件2.DTD File : 语法自成一派早期出现，可读性较差;3.XML Schema File : 其实就是xml并且使用xml语法规则，xml解析器解析起来比较方便为了替代DTD，但是Schema约束文本内容比DTD内容还要多;4.XSL

对于完整的 XML 处理您还需要学习XML DOM，XSLT（XML 样式表语言转换）和 XPath ，XML DTD（文档类型定义 - DTD 的目的是定义 XML 文档中合法的元素、属性和实体）， XML Schema （替代DTD的

对于访问 XMLHttpRequests，JSON 是首选的格式。对于简单的文档处理，JQuery 选择更容易。

(1) XML 实际用途简单的说就是:存储传输数据

XML 把数据从 HTML 分离：通过 XML，数据能够存储在独立的 XML 文件中,这样您就可以专注于使用 HTML/CSS 进行显示和布局，并确保修改底层数据不再需要对 HTML 进行任何的改变。XML 简化数据共享与传输：XML 数据以纯文本格式进行存储，因此提供了一种独立于软件和硬件的数据存储方法，类似于文本存储；以 XML 交换数据降低了这种复杂性；XML 简化平台变更：由于XML 数据以文本格式存储常常作为配置文件的形式，使得 XML 在不损失数据的情况下，更容易扩展或升级到新的操作系统、新的应用程序或新的浏览器。XML 用于创建新的互联网语言： XHTML; 用于描述可用的 Web 服务的 WSDL;作为手持设备的标记语言的 WAP 和 WML; 用于新闻 feed 的 RSS 语言;描述资本和本体的 RDF 和 OWL;用于描述针针对 Web 的多媒体的 SMIL;

当今，XML 是非常重要的技术，并且开发项目正在使用这些基于 XML 的技术：

XML快速入门学习笔记

WeiyiGeek.

（2）XML 树结构描述:XML 文档形成了一种树结构，它从”根部”开始，然后扩展到”枝叶”。XML 文档必须包含根元素，该元素是所有其他元素的父元素，且所有元素都可以包含子元素；

XML解析方式分为两种:

SAX（Simple API for XML）：基于事件驱动读取一行解析一行，不会导致内存溢出，但是它只能查询不能增删；DOM（Document Object model）：通过解析 XML 文档(可以看作JS解析操作DOM),为 XML 文档在逻辑上建立一个树模型,树的节点是一个个的对象，这样通过操作这棵树和这些对象就可以完成对 XML 文档的操作（增删改查）,为处理文档的所有方面提供了一个完美的概念性框架。由于DOM一切都是节点（everything-is-a-node）实质上是一些节点的集合”，XML树的每个 Document、Element、Text 、Attr和Comment都是 DOM Node。由于文档中可能包含有不同类型的信息，所以定义了几种不同类型的节点，如：Document、Element、Text、Attr 、CDATASection、ProcessingInstruction、Notation 、EntityReference、Entity、DocumentType、DocumentFragment等。

基础语法：

<?xml version="1.0" encoding="UTF-8"?>
<!-- 根元素 root -->
<root>
    <child>
     <subchild>.....</subchild>
    </child>
    <note>
        <!--子元素 child-->
        <to>Tove</to>
        <from>Jani</from>
        <heading>Reminder</heading>
        <body>Don't forget me this weekend!</body>
        <test>
             <!--子元素的元素 subchild-->
            <lib> this is new elements</lib>
        </test>
    </note>

    <!-- 元素 -->
    <line id="1"> <!-- 属性 -->
        the  
        <bold>First</bold>  <！- 文本 -->
        line
    </line>
</root>

WeiyiGeek.xml文档DOM表示

下面的实例中的根元素是 <bookstore>。文档中的所有 <book> 元素都被包含在 <bookstore> 中。<book> 元素有 4 个子元素：<title>、<author>、<year>、<price>。用 XML 表示一本书的信息；

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
    <book category="COOKING">
        <title lang="en">Everyday Italian</title>
        <author>Giada De Laurentiis</author>
        <year>2005</year>
        <price>30.00</price>
    </book>
    <book category="CHILDREN">
        <title lang="en">Harry Potter</title>
        <author>J K. Rowling</author>
        <year>2005</year>
        <price>29.99</price>
    </book>
    <book category="WEB">
        <title lang="en">Learning XML</title>
        <author>Erik T. Ray</author>
        <year>2003</year>
        <price>39.95</price>
    </book>
</bookstore>

面试问答:

JAVA 针对于这个两种解析方式的API的解决方案常见是jaxp（繁琐）、jdom、dom4j（广泛）;

0x01 语法规则

（1）XML 声明文件的可选部分(文档声明)，如果存在需要放在文档的第一行，且所有的 XML 元素都必须有一个关闭标签;

实例包含 XML 版本（UTF-8 也是 HTML5, CSS, JavaScript, PHP, 和 SQL 的默认编码。

<?xml version="1.0" encoding="utf-8" standalone="no" ?>
<!-- 
    version="1.0":表示应用什么版本的解析器解析
    encoding="ISO-8859-1":解析xml文字的时候使用什么编码来翻译常用utf8/gbk
    standalone="no":该文档会依赖关联其他文档（yes表一个独立的文档）
-->

<root>This is Root</root>
<!-- This is a comment -->  //注释

XML编码:XML 文档可以包含非 ASCII 字符，比如挪威语 æ ø å，或者法语 ê è é；为了避免错误，需要规定 XML 编码，或者将 XML 文件存为 Unicode

单字节编码属性的 XML 文件，相同的单字节没有编码属性的 XML 文件。