语法混淆漏洞

Ivoripuion2025-01-162025-11-18

语法混淆漏洞：指系统中的两个或多个组件因语法规则的模糊或不一致而以不同方式解释同一输入时所发生的现象。

文件上传漏洞的经典案例

在 HTML 表单中上传文件时，即enctype="multipart/form-data"的请求中，上传文件通常包含如下字段：

1	Content-Disposition: form-data; name="file"; filename="example.txt"

为了支持非 ASCII 的字符，filename参数也可以表示为：

1	Content-Disposition: form-data; name="file"; filename*=UTF-8''example%2Etxt

在这里，filename*=UTF-8''example%2Etxt和filename="example.txt"是等价的：

filename*：扩展参数名。
UTF-8’’：表示字符编码为 UTF-8，语言标签为空。
%2E：URL 编码的点号（.）。

许多开发者只检查filename字段，而忽略filename*，或者仅对一种格式做安全校验（如路径遍历过滤、黑名单扩展名检查等）。这就导致攻击者可通过使用filename*绕过基于 filename的安全策略，这就是一个常见的文件上传漏洞绕过例子。

C++二字符组

一段代码：

// %: == #
%:include <stdio.h>
int main() {
  printf("test!\n")
  return 0;
}

这里%:会被编译器静默转换成#，这是因为由于历史上某些键盘或字符编码系统（如ISO 646的某些国家变体）不支持#字符。为了解决这个问题，C 和 C++ 标准引入了三字符组和二字符组：

类型	替代序列	等价字符
Trigraph	`??=`	`#`
Trigraph	`??/`	`\`
Trigraph	`??'`	`^`
Trigraph	`??(`	`[`
Trigraph	`??)`	`]`
Trigraph	`??!`	`	`
Trigraph	`??<`	`{`
Trigraph	`??>`	`}`
Trigraph	`??-`	`~`
Digraph	`<%`	`{`
Digraph	`%>`	`}`
Digraph	`<:`	`[`
Digraph	`:>`	`]`
Digraph	`%:`	`#`

三字符组在C++17以后没了，但是二字符组到现在还可以用。

作者挖漏洞的流程

生成语义等价的变体。
观察每一跳的标准化行为：依次分析请求在浏览器、CDN、WAF/代理、Web 服务器、应用框架、解析库等各组件中的处理差异，识别因解析不一致导致的分歧点。
故意触发错误路径（fuzz），比如：:99999999999999999999、%3A%30%30%30%34%34%33。
收集证据:分析原始请求和响应，寻找差异来检测意外行为。

其实我理解就是fuzz。

Python和Perl的例子

其实就是unicode编码，举个例子：

1	print("\N{LATIN CAPITAL LETTER A}")

输出就是：

使用\N{名称}，编程语言会在内部查找该名称对应的 Unicode 码点，并将其转换为实际字符。

sudo的例子

sudo<1.8.28在内部处理-u#-1参数时，会尝试将-1转换为用户名，由于该 UID 不存在于系统用户数据库中，转换失败后，sudo错误地将其当作 UID 0（即 root）来处理。

于是即便配置中明确禁止以 root 身份运行命令（如user ALL=(ALL, !root) /bin/bash），攻击者仍可通过如下命令绕过限制：

1
2
3

sudo -u#-1 /bin/bash
# 或 uid_t 类型
sudo -u#4294967295 /bin/bash

urllib.parse的例子

Python<3.12的一些版本中，urllib.parse.urlparse()在解析以空白字符开头的 URL（如 " https://localhost"）时，会因前导空格导致scheme和netloc字段为空，整个 URL 被误判为相对路径，于是就可以绕过一些常见的SSRF防御的过滤。