XML External Entity (XXE) 漏洞是一种注入攻击,利用不安全的XML解析器来执行各种恶意操作,如读取本地文件、执行远程代码、发起拒绝服务攻击等;此漏洞的根本原因在于XML标准允许在文档中定义外部实体,并在解析时进行解析和替换。在正式开始阐述XXE漏洞之前首先来说明一下XML语言。
XML(可扩展标记语言,Extensible Markup Language)是一种标记语言,用于描述数据。XML非常适合数据存储和传输,因为它是纯文本,并且是可读的和可扩展的。XML广泛用于各种应用程序中,包括配置文件、文档格式和数据交换等。
下面是一个简单的XML示例,描述了一本书的信息:
- "1.0" encoding="UTF-8"?>
- <bookstore>
- <book category="children">
- <title lang="en">Harry Pottertitle>
- <author>J K. Rowlingauthor>
- <year>2005year>
- <price>29.99price>
- book>
- <book category="web">
- <title lang="en">Learning XMLtitle>
- <author>Erik T. Rayauthor>
- <year>2003year>
- <price>39.95price>
- book>
- bookstore>
在上述示例中:
根元素是。
bookstore元素包含两个子元素。
每个元素包含四个子元素:、、和。
book元素还有一个属性category,用来标识书的类别。
title元素也有一个属性lang,用来标识语言。
XML文档由以下几部分组成:
声明(Prolog):可选部分,通常包含XML版本和编码声明。
"1.0" encoding="UTF-8"?>
根元素(Root Element):每个XML文档必须且只能有一个根元素,所有其他元素都是该根元素的子元素。
- <root>
- ...
- root>
在上述示例中的根元素是;根元素是整个XML文档的顶级元素。
元素(Element):由开始标签和结束标签包围的内容,可以包含属性、文本、子元素等。
<element attribute="value">Contentelement> 属性(Attribute):位于元素的开始标签内,提供额外的信息。
<element attribute="value">Contentelement> 文本(Text):元素内的内容,可以是纯文本或混合内容(文本和子元素的组合)。
<element>Text contentelement> CDATA(Character Data):不需要解析的文本数据,用于包含不需要被解析的字符,如HTML代码。
Some HTML content不同编程语言提供了丰富的库来解析和生成XML文档;此处我们以PHP语言为例子进行演示:
- $xml = <<
-
-
Harry Potter -
J K. Rowling -
2005 -
29.99 -
- XML;
-
- $xmlObject = simplexml_load_string($xml);
- echo $xmlObject->book->title . "\n"; // 输出:Harry Potter
- ?>
DTD(Document Type Definition,文档类型定义)是XML的一种语法,用于定义XML文档的结构和规则;DTD可以在XML文档内部(内部DTD)或外部(外部DTD)定义,通过DTD,您可以指定XML文档中允许的元素、属性、嵌套关系、数据类型等,从而确保XML文档的有效性和一致性。
以下是一个简单的XML文档及其对应的DTD示例:
- "1.0" encoding="UTF-8"?>
- bookstore SYSTEM "bookstore.dtd">
- <bookstore>
- <book category="children">
- <title lang="en">Harry Pottertitle>
- <author>J K. Rowlingauthor>
- <year>2005year>
- <price>29.99price>
- book>
- <book category="web">
- <title lang="en">Learning XMLtitle>
- <author>Erik T. Rayauthor>
- <year>2003year>
- <price>39.95price>
- book>
- bookstore>
重点解析:
bookstore SYSTEM "bookstore.dtd">
这行代码是XML文档中的一个声明,指定了该文档所使用的外部DTD(文档类型定义)。
:这部分声明了XML文档的文档类型定义(DTD);bookstore 是根元素的名称,表示此DTD描述了名为 bookstore 的根元素及其内容结构。
SYSTEM "bookstore.dtd":SYSTEM关键字表示DTD的位置是一个系统标识符;"bookstore.dtd" 是一个外部DTD文件的路径或URL,这个文件定义了XML文档的结构和规则。
- bookstore (book+)>
- book (title, author, year, price)>
- book category CDATA #REQUIRED>
- title (#PCDATA)>
- title lang CDATA #REQUIRED>
- author (#PCDATA)>
- year (#PCDATA)>
- price (#PCDATA)>
①元素声明:用于定义元素的名称和内容模型;语法:;
- bookstore (book+)>
- book (title, author, year, price)>
②属性声明:用于定义元素可以拥有的属性。语法:,示例:
- book category CDATA #REQUIRED>
- title lang CDATA #REQUIRED>
使用 声明和外部DTD文件,可以确保XML文档符合预定义的结构和规则,帮助验证数据的有效性和一致性。这对于交换和处理结构化数据非常有用。
③实体声明(Entity Declarations):实体用于定义常用的文本片段,可以在XML文档中重复使用。语法:;示例:
example "This is an example entity">
在说完前置内容XML之后,这会儿我们就接着来说XXE漏洞;在此处我们也是拿pikachu靶场中的XXE相关靶场进行阐述说明:
1.打开页面后发现页面中出现一个输入框,该输入框是用来接收xml数据的一个接口,输入的内容只能是xml数据,若输入的内容为其他数据则此时我们会被质疑hh。

2.尝试输入一个简单定义义并使用了一个内部实体的XML文档;查看当前页面是否对输入的xml有回显:
- "1.0"?>
- foo [xxe "This is an example entity">] >
- <foo>&xxe;foo>
:声明文档类型定义(DTD)部分,指定该XML文档的根元素是foo。
:定义了一个名为xxe的内部实体,其值为字符串 "This is an example entity"。
:foo是根元素。
&xxe;:引用了之前定义的内部实体xxe。
将xml数据输入后查看到页面效果:

此时可以判断当前页面对内部输入实体xml是有回显的,接着可以尝试输入xml内带外部实体的payload来确定当前页面是否支持外部实体。
- "1.0"?>
- foo [xxe SYSTEM "file:///C:/Windows/System32/drivers/etc/hosts">] >
- <foo>&xxe;foo>
这个XML示例定义了一个外部实体 xxe,其内容是指向系统文件 C:/Windows/System32/drivers/etc/hosts。该外部实体在XML文档中被引用。如果一个不安全的XML解析器处理这个XML文档,它会尝试读取并插入 hosts 文件的内容。
:声明文档类型定义(DTD)部分,指定该XML文档的根元素是foo。
:定义了一个名为xxe的外部实体,指向系统文件路径 C:/Windows/System32/drivers/etc/hosts。
:foo是根元素。
&xxe;:引用了之前定义的外部实体xxe。
输入payload后的效果:页面显示服务器中的hosts文件

攻击成功;接着我们结合源代码进行XXE漏洞原理的剖析:
- $html='';
- //考虑到目前很多版本里面libxml的版本都>=2.9.0了,所以这里添加了LIBXML_NOENT参数开启了外部实体解析
- if(isset($_POST['submit']) and $_POST['xml'] != null){
-
- $xml =$_POST['xml'];
- // $xml = $test;
- $data = @simplexml_load_string($xml,'SimpleXMLElement',LIBXML_NOENT);
- if($data){
- $html.="
{$data}"; - }else{
- $html.="
XML声明、DTD文档类型定义、文档元素这些都搞懂了吗?
"; - }
- }
这个PHP代码片段的主要功能是处理用户提交的XML数据,并在某些条件下将其显示为HTML。
①使用 simplexml_load_string 函数加载用户提交的XML字符串,创建一个 SimpleXMLElement 对象。
第三个参数 LIBXML_NOENT 启用了外部实体解析。这意味着如果XML包含外部实体引用,解析器将尝试解析和替换它们。
@符号抑制了任何可能出现的警告或错误。
②如果成功加载XML(即 $data 不为空),将XML数据转换为字符串并包裹在标签中追加到 $html 中。
如果加载失败,显示一条提示信息,告知用户可能需要理解XML声明、DTD文档类型定义和文档元素。
此处,这个代码片段存在一个严重的安全漏洞——XXE(XML External Entity Injection),因为指定了 LIBXML_NOENT 参数,启用了外部实体解析,这个时候攻击者就可以提交包含外部实体的XML数据,从而读取服务器上的敏感文件或执行其他恶意操作。
LIBXML 是 PHP 中用于处理 XML 数据的库,基于 libxml2 库。LIBXML 解析器提供了多种常量和选项,用于配置和控制 XML 文档的解析行为。但是在 libxml2 版本 2.9.0 之前,外部实体解析是默认启用的,这意味着,如果没有特别禁用外部实体解析,XML 解析器将会解析和处理外部实体,从而产生XXE漏洞。
在 PHP 中,可以通过 libxml_disable_entity_loader 函数来禁用外部实体解析,这是防止 XXE 攻击的主要方法之一:
- libxml_disable_entity_loader(true);
- $xmlObject = simplexml_load_string($xmlString);
- libxml_disable_entity_loader(false);
在处理 XML 输入之前,进行严格的验证和清理,确保输入数据是可信的。例如:
使用白名单验证文件类型和内容。
对文件内容进行正则表达式验证。
配置 WAF 以检测和阻止恶意的 XML 数据。WAF 可以识别和拦截常见的 XXE 攻击模式。
在 XML 解析器中,关闭不必要的功能,如外部实体解析、DTD 验证等,以减少攻击面。