XML/RSS的CDATA区段

发布于 2010-04-16 16:58 阅读：104,249 评论：0 标签： CDATA rss xml

之前做RSS输出的程序时，用"<![CDATA[内容]]>"解决了description节点文章内容的老断点的问题。当时不甚其解，也没花时间弄明白它的原理。

今天继续学习了一下XML的基础格式，豁然开朗。

每种数据格式，如果要被广泛推广，被多种解析器能理解，必需要有其特定的格式，就如语法一般。

虽然XML 和 HTML 为不同的目的而设计：

以下是引用片段：

XML 被设计为传输和存储数据，其焦点是数据的内容。
HTML 被设计用来显示数据，其焦点是数据的外观。
HTML 旨在显示信息，而 XML 旨在传输信息。

但在语法上，两者有相似之处，HTML的标签都是放在“<”和“>”之间，XML也是如此。如在 XML 文档中放置了一个类似 "<" 字符，那么这个文档会产生一个错误，这是因为解析器会把它解释为新元素的开始。

而一般文章的内容可能包含意想不到的特殊字符，尤其是技术博客。那么为了避免此类错误，XML要求我们把字符 "<" 替换为实体引用，如：

以下是代码片段：
<message>if salary < 1000 then</message>

而不是

以下是代码片段：
<message>if salary < 1000 then</message>

那什么是实体引用呢，如下：

以下是引用片段：
在 XML 中有 5 个预定义的实体引用：
< < 小于
> > 大于
& & 和号
' ’ 单引号
" " 双引号

注释：严格地讲，在 XML 中仅有字符 "<"和"&" 是非法的。省略号、引号和大于号是合法的，但是把它们替换为实体引用是个好的习惯。

所以在文章内容输出的时候，做一次htmlspecialchars处理是很有必要的。

除了使用htmlspecialchars处理以外，XML还为我们提供了一个特殊的标签：CDATA 区段（CDATA section）中的文本会被解析器忽略。所谓被解析器忽略并不是舍弃内容，而是忽略中间的内容，不然中间的内容影响XML的格式。

CDATA 区段开始于 "<![CDATA["，结束于 "]]>"：

以下是代码片段：
<script>
<![CDATA[
function matchwo(a,b)
{
if (a < b && a < 0)
   {
   return 1
   }
else
   {
   return 0
   }
}
]]>
</script>

在上面的例子中，在 CDATA 区段中的所有东西都会被解析器忽略。

特别注意：

1：CDATA 区段不能包含字符串 "]]>"，所以，CDATA 区段的嵌套是不被允许的。
2：同时也需要确保在 "]]>" 字符串中没有空格或折行。