之前做RSS输出的程序时,用"<![CDATA[内容]]>"解决了description节点文章内容的老断点的问题。当时不甚其解,也没花时间弄明白它的原理。
今天继续学习了一下XML的基础格式,豁然开朗。
每种数据格式,如果要被广泛推广,被多种解析器能理解,必需要有其特定的格式,就如语法一般。
虽然XML 和 HTML 为不同的目的而设计:
以下是引用片段: XML 被设计为传输和存储数据,其焦点是数据的内容。 |
但在语法上,两者有相似之处,HTML的标签都是放在“<”和“>”之间,XML也是如此。如在 XML 文档中放置了一个类似 "<" 字符,那么这个文档会产生一个错误,这是因为解析器会把它解释为新元素的开始。
而一般文章的内容可能包含意想不到的特殊字符,尤其是技术博客。那么为了避免此类错误,XML要求我们把字符 "<" 替换为实体引用,如:
以下是代码片段: <message>if salary < 1000 then</message> |
而不是
以下是代码片段: <message>if salary < 1000 then</message> |
那什么是实体引用呢,如下:
以下是引用片段: 在 XML 中有 5 个预定义的实体引用: < < 小于 > > 大于 & & 和号 ' ’ 单引号 " " 双引号 |
注释:严格地讲,在 XML 中仅有字符 "<"和"&" 是非法的。省略号、引号和大于号是合法的,但是把它们替换为实体引用是个好的习惯。
所以在文章内容输出的时候,做一次htmlspecialchars处理是很有必要的。
除了使用htmlspecialchars处理以外,XML还为我们提供了一个特殊的标签:CDATA 区段(CDATA section)中的文本会被解析器忽略。所谓被解析器忽略并不是舍弃内容,而是忽略中间的内容,不然中间的内容影响XML的格式。
CDATA 区段开始于 "<![CDATA[",结束于 "]]>":
以下是代码片段: <script> <![CDATA[ function matchwo(a,b) { if (a < b && a < 0) { return 1 } else { return 0 } } ]]> </script> |
在上面的例子中,在 CDATA 区段中的所有东西都会被解析器忽略。
特别注意:
1:CDATA 区段不能包含字符串 "]]>",所以,CDATA 区段的嵌套是不被允许的。
2:同时也需要确保在 "]]>" 字符串中没有空格或折行。