AI编程助手在漏洞复现中的人机协同实践与效率提升

孙晓岸

328人浏览 · 2026-06-17 13:54:46

孙晓岸 · 2026-06-17 13:54:46 发布

1. 项目概述：当安全研究员遇上AI编程助手

在安全研究领域，尤其是漏洞挖掘与复现环节，我们常常面临一个核心矛盾：时间与精力的有限性，与海量代码、复杂逻辑、隐蔽缺陷之间的无限博弈。传统的代码审计依赖研究员逐行阅读、理解上下文、构建攻击链，这个过程既考验经验，也极度消耗心力。近年来，AI编程助手（如通义灵码）的崛起，为我们提供了一种全新的“副驾驶”模式。它不再是简单的代码补全工具，而是能理解上下文、解释逻辑、甚至进行初步推理的智能伙伴。这个项目，正是探索如何将通义灵码这类工具，深度融入到未公开漏洞（即0-day或内部发现的漏洞）的复现工作流中，从而提升研究效率、降低认知负荷，并尝试挖掘人机协作的新范式。

所谓“未公开漏洞复现”，指的是在仅有漏洞现象描述（如“某处存在任意文件删除”）、模糊的版本信息或部分代码片段，但没有公开PoC（概念验证代码）和详细分析报告的情况下，安全研究员需要逆向推导出漏洞的触发条件、利用路径，并最终编写出能稳定触发的验证代码。这个过程充满了不确定性，而通义灵码的价值，就在于它能帮助我们快速理解陌生代码库、定位可疑函数、生成测试代码片段，甚至基于我们的引导进行“思维实验”，从而加速从线索到结论的转化。

2. 核心思路：构建人机协同的漏洞分析工作流

单纯把通义灵码当作一个“问答机”或“代码生成器”来用，在漏洞复现这种高智力活动中收效甚微。关键在于构建一套系统性的、人机分工明确的工作流。我的核心思路是： 研究员负责战略决策、逻辑推理和最终验证，而通义灵码则承担战术执行、信息检索和代码草稿生成的任务。

2.1 工作流阶段划分

一个高效的漏洞复现工作流可以划分为四个主要阶段，每个阶段都有通义灵码可以介入的切入点：

信息收集与环境搭建阶段 ：此阶段目标是明确目标（如BlueCMS 1.6）、搭建可调试的靶场环境（如使用Docker快速构建vulhub靶场）、并初步理解项目结构。
代码审计与线索定位阶段 ：这是最核心的阶段。根据漏洞类型（如“任意文件删除”），我们需要在代码库中定位相关的危险函数（如 unlink 、 rmdir 等）和用户可控的输入点。
逻辑分析与攻击链构建阶段 ：找到可疑代码后，需要理清数据流、控制流，理解如何从用户输入传递到危险函数，并绕过可能的防护措施。
PoC编写与验证调试阶段 ：将分析结果转化为可执行的PoC代码，并在真实环境中测试、调试，直至成功复现漏洞。

通义灵码的能力，尤其是其代码解释、智能问答和上下文感知的代码生成功能，在2、3、4阶段能发挥巨大作用。

2.2 工具选型与配置要点

工欲善其事，必先利其器。虽然标题聚焦通义灵码，但实际工作中它只是我们武器库中的一件。合理的工具链搭配能事半功倍。

核心AI助手：通义灵码 。我选择它主要基于几点：首先，它对中文语境的理解和生成非常自然，在描述复杂安全概念时沟通成本低；其次，它与VS Code、PyCharm等主流IDE的集成度很高，能直接分析当前打开的项目文件，实现真正的“上下文感知”；最后，其代码解释能力在理解复杂逻辑块时非常有用。需要注意的是，务必在IDE中安装官方插件并登录阿里云账号，确保能使用最新的模型能力。关于收费，目前个人开发者仍有免费额度，对于漏洞研究这种间歇性、高强度的使用场景，通常足够。
辅助分析工具 ：
- 静态分析工具 ：如 semgrep 、 CodeQL 。它们可以快速进行全项目扫描，找出所有使用特定危险函数的模式，为通义灵码提供更精确的审计起点。我们可以将工具的扫描结果直接喂给灵码，让它帮忙分析这些找到的代码点是否真的存在可利用路径。
- 动态调试工具 ：如 xdebug （PHP）、 pdb / ipdb （Python）、 gdb （C/C++）。这是最终验证的必备工具。通义灵码可以帮助我们生成带有调试断点的测试代码，或者解释一段核心汇编指令的含义。
- 靶场环境 ： Docker + docker-compose 是快速搭建漏洞环境（如vulhub）的金标准。通义灵码可以协助编写或修改 Dockerfile 和 docker-compose.yml ，快速构建出与漏洞版本一致的环境。
信息管理 ：一个简单的笔记软件（如Obsidian、Typora）用于记录分析过程、灵码的对话记录、关键代码片段和假设。这能帮助我们保持思路连贯，尤其是在长时间、多线程的分析中。

注意：切勿完全依赖AI的输出。它生成的代码、分析结论都必须经过严格的审查和验证。AI可能会产生“幻觉”，即生成看似合理但实际错误的代码或解释。安全研究，责任重大，任何用于测试的代码都必须在隔离环境中运行。

3. 实战演练：以“任意文件删除”漏洞为例进行深度剖析

让我们以一个典型的漏洞类型——“任意文件删除”（对应CVE-2024-45894等）为例，完整走一遍人机协作的复现流程。假设我们只有一个模糊的信息：“BlueCMS 1.6版本中存在一处任意文件删除漏洞，通过前台某功能可删除服务器上任意文件”。

3.1 阶段一：环境搭建与项目初窥

首先，我们需要一个BlueCMS 1.6的环境。如果vulhub中有现成靶场，直接 docker-compose up -d 即可。如果没有，我们就需要手动搭建。

获取源码 ：从官方或存档站点下载BlueCMS 1.6源码。
搭建本地Web环境 ：使用PHPStudy、XAMPP或直接配置Apache+PHP+MySQL。这里可以请通义灵码帮忙。我们可以在IDE中打开一个临时文件，向灵码提问：

我的提问 ：“我正在本地Windows环境使用PHPStudy搭建BlueCMS 1.6测试环境。源码已放在WWW目录下。访问安装页面时出现数据库连接错误。我的PHPStudy中MySQL端口是3307，但BlueCMS配置似乎写死了3306。请帮我快速定位BlueCMS 1.6的数据库配置文件路径，并给出修改端口为3307的示例。” 灵码的辅助 ：它通常会快速指出常见的配置文件路径，如 /data/config.php 或 /include/config.inc.php ，并给出具体的修改代码片段。这比我们自己漫无目的地搜索要快得多。
项目结构概览 ：环境跑起来后，在IDE中打开整个BlueCMS项目。使用通义灵码的“解释代码”功能，选中项目根目录，让它生成一个项目结构概览。这能帮助我们快速了解 admin （后台）、 include （公共函数）、 data （配置数据）等关键目录的作用。

3.2 阶段二：基于漏洞特征的定向代码审计

“任意文件删除”漏洞的核心是用户输入未经验证地传递给了文件删除函数。在PHP中，危险函数主要是 unlink() ，有时也可能是 rmdir() 或通过系统命令调用 rm 。

全项目搜索危险函数 ：我们可以使用IDE的全局搜索（Find in Files）功能，搜索 unlink 。但结果可能很多。更好的方法是结合 semgrep 。我们可以编写或使用现成的规则扫描项目。将扫描出的所有 unlink 调用点列表保存。
人机协作，筛选高危点 ：现在，将扫描结果导入笔记，开始逐个分析。对于每一个 unlink 调用点，我们做以下操作：
- 打开该文件，定位到代码行 。
- 选中包含 unlink 的代码块（通常需要包含前面几行获取参数的逻辑） 。
- 右键调用通义灵码的“解释这段代码”功能 。它会以自然语言解释这段代码做了什么，参数从哪里来。
- 提出关键问题 ：在灵码的聊天框中，基于它的解释，继续追问：“这段代码中， unlink 函数的参数 $file_path 是否完全由用户控制？有没有经过过滤或校验？请指出校验代码的行数。”
- 灵码的分析 ：一个优秀的回答会指出，例如：“ $file_path 来自 $_GET['file'] ，在第85行。在第87行有一个 basename() 函数处理，这只能防止路径穿越，但无法阻止删除当前目录下的任意文件。如果 $file_path 是 config.php ，且该文件存在于当前目录，则会被删除。” 这直接为我们标记了一个 潜在高危点 。
定位前台功能点 ：漏洞描述是“前台某功能”。所以我们需要筛选出那些不在 admin 目录下的、包含 unlink 的代码文件。灵码在解释代码时通常会显示文件路径，这很方便。我们很快可能锁定一个位于 /user/ 或根目录下的文件，比如 del_avatar.php 。

3.3 阶段三：攻击链逻辑推理与验证

假设我们通过上述方法，在 /user/del_avatar.php 中找到了可疑代码：

// del_avatar.php
$avatar_file = $_GET['avatar'];
$avatar_path = './uploads/avatar/' . $avatar_file;
if (file_exists($avatar_path)) {
    unlink($avatar_path);
    echo '头像删除成功';
}

逻辑分析 ：这段代码看起来是删除用户头像的。参数 avatar 直接拼接进路径，然后检查文件是否存在，存在则删除。 basename() 过滤呢？这里没有！这就存在路径穿越的可能。
向灵码提出构造Payload的请求 ：

我的提问 ：“在上面的代码中， $avatar_file 直接来自 $_GET['avatar'] 。目标是删除网站根目录下的 config.php 文件。已知头像上传目录是 ./uploads/avatar/ ，网站根目录是 ./ 。请帮我构造一个可能的HTTP请求参数，实现路径穿越，并解释原理。” 灵码的辅助 ：它可能会生成如下分析和Payload： “原理：通过 ../ 实现目录回退。从 ./uploads/avatar/ 回退到根目录，需要回退两级： ../../ 。因此，Payload为： avatar=../../../config.php 。最终拼接的路径为： ./uploads/avatar/../../../config.php ，归一化后就是 ./config.php 。如果服务器开启了 file_exists 和 unlink 的权限，且没有其他过滤，即可删除。”
深入追问防护与绕过 ：但事情可能没那么简单。也许代码在别处有全局过滤。我们可以问灵码：“在这个BlueCMS 1.6项目中，有没有全局函数对 $_GET 、 $_POST 参数进行过滤，特别是处理 ../ 这样的字符串？请搜索类似 str_replace 、 preg_replace 、 filter_var 等函数，并查看它们是否在公共包含文件（如 include/common.inc.php ）中。” 灵码会去分析项目中的公共头文件，并可能发现存在一个 _filter() 函数，它会删除参数中的 ../ 。这时，我们的攻击链就需要调整，思考如何双写绕过（ ....// ）或使用编码绕过。

3.4 阶段四：PoC编写、测试与调试

经过分析，我们确认了漏洞点和利用方法。现在需要编写一个可重复测试的PoC脚本。

让灵码生成PoC草稿 ：

我的提问 ：“请用Python的 requests 库编写一个PoC脚本，用于测试上述 del_avatar.php 文件的任意文件删除漏洞。脚本需要接收目标URL、要删除的文件路径（如 ../../../config.php ）作为参数，并发送相应的GET请求。请添加简单的错误处理和结果判断。” 灵码的辅助 ：它会生成一个结构清晰、包含异常处理和结果解析的Python脚本草稿。这节省了我们从零搭建框架的时间。
人工审查与增强 ：生成的草稿可能缺少一些细节，比如Cookie会话处理（如果删除操作需要登录）。我们需要根据实际情况修改。例如，如果发现删除操作需要 userid 的Cookie，我们可以让灵码：“如何在上面的Python脚本中，先模拟登录BlueCMS 1.6获取会话Cookie，然后再携带Cookie发送删除请求？”
动态调试 ：如果PoC不成功，需要调试。我们可以在可疑代码前后添加 echo 或 file_put_contents 日志，或者使用Xdebug。我们可以让灵码帮忙：“如何在 del_avatar.php 文件中，在 unlink 行之前，添加一行代码将 $avatar_path 的值记录到 /tmp/debug.log 文件中？” 灵码会给出准确的PHP代码行。
最终验证 ：在隔离的测试环境中运行完善的PoC，确认 config.php 文件被成功删除，并记录下完整的HTTP请求和响应。至此，漏洞复现完成。

4. 通义灵码在复现各环节中的高阶应用技巧

除了上述基本流程，在实践中我总结了一些提升效率的高阶技巧，让灵码从“助手”变为“得力伙伴”。

4.1 利用“知识库”功能构建项目专属上下文

对于像BlueCMS这样有一定规模的代码库，单纯靠单文件问答效率有限。通义灵码的“企业知识库”功能（个人版也可能有类似项目上下文增强）是神器。我们可以将整个BlueCMS的源码文件（或关键目录）上传到知识库中。这样，在任何对话中，灵码都能基于整个项目的代码来回答问题，准确率会大幅提升。例如，你可以直接问：“在BlueCMS 1.6中，所有处理用户上传文件的功能函数有哪些？它们都集中在哪里？” 它能给出更全面的答案。

4.2 进行“假设性”提问与边界测试

安全研究需要创造性思维。我们可以向灵码提出一些“假设性”场景，让它帮我们推理。

场景推演 ：“如果 _filter() 函数不仅过滤 ../ ，还过滤了 ..\ （Windows路径），但在某些情况下服务器会自动将 / 转换为 \ ，是否存在绕过可能？请分析一下。”
边界测试 ：“ unlink 函数在PHP中，如果参数是一个指向符号链接（symlink）的路径，它会删除链接本身还是指向的目标文件？如果目标文件不在Web目录内，这个漏洞的影响是否会扩大？” 这类问题能帮助我们更深入地评估漏洞危害。

4.3 辅助编写模糊测试（Fuzzing）脚本

对于输入点复杂、过滤逻辑不清的情况，可以编写Fuzzing脚本进行黑盒测试。灵码可以快速生成脚本框架。

我的提问 ：“我需要对一个接收 file 参数的PHP接口进行模糊测试。测试向量包括：各种路径穿越Payload（如 ../../etc/passwd ，编码后的变体）、空值、超长字符串、特殊字符数组。请用Python生成一个基础的Fuzzing脚本框架，使用 requests 库，从文件中读取测试向量，发送请求，并根据响应状态码和内容（如是否包含‘成功’、‘错误’等关键字）初步判断可能存在的漏洞。”

4.4 辅助分析二进制漏洞（以“永恒之蓝”类漏洞为例）

虽然通义灵码更擅长高级语言，但对于一些有公开分析的二进制漏洞（如永恒之蓝CVE-2017-0144），它也能辅助理解。

我们可以将漏洞分析文章的关键部分，或者Metasploit模块中的Ruby/Python利用代码片段粘贴给灵码，让它解释： “以下是一段永恒之蓝漏洞利用中，用于计算NT Trans响应Fragment结构的代码。请用通俗的语言解释这段代码在利用链中扮演什么角色，特别是 pack('vvV', ...) 这一行在构造什么数据？”

通过这种方式，我们可以快速理解利用代码的逻辑，而不是迷失在细节的字节操作中。

5. 常见陷阱、局限性及应对策略实录

尽管通义灵码强大，但在安全研究这个领域，盲目信任AI是危险的。以下是我在实际使用中踩过的坑和总结的策略。

5.1 AI的“幻觉”与事实错误

这是最大的风险。灵码可能会：

编造不存在的函数或参数 ：例如，它可能信誓旦旦地说某个PHP版本有一个 secure_unlink() 函数，实际上根本没有。
错误理解代码逻辑 ：在复杂的条件分支或循环中，它可能错误地判断某条路径永远执行不到，而实际上在特定条件下可以触发。
提供过时或不安全的建议 ：例如，建议使用已被废弃的 mysql_* 函数进行数据库连接测试。

应对策略 ：

交叉验证 ：对于AI给出的任何关键信息（如函数存在性、漏洞点），必须使用IDE的跳转定义、官方文档或搜索引擎进行二次确认。
要求提供出处 ：在提问时，可以加上“请根据BlueCMS 1.6的实际代码进行分析”或“你的这个判断是基于哪一行代码得出的？”，引导它给出更具体的引用。
从小处验证 ：不要一开始就让它分析整个漏洞链。先让它解释一小段确切的代码，验证其理解能力，再逐步扩大范围。

5.2 对代码上下文理解的局限性

灵码的上下文窗口再大，也有极限。对于非常庞大的单体文件或复杂的类继承关系，它可能无法看到全部关联。

问题：分析一个漏洞时，它可能忽略了在父类中定义的、对子类有影响的过滤方法。
应对：主动为它提供上下文。在提问前，先选中相关的类定义、函数引用所在的代码块，然后提问。或者，将相关的几个关键文件内容一起粘贴到对话中。

5.3 无法替代人类的逻辑推理和创造力

AI擅长模式匹配和基于已有知识的推理，但缺乏真正的“灵光一现”。例如，它很难自主发现一个通过时间竞争条件（TOCTOU）或逻辑缺陷构成的漏洞，除非这种模式在它的训练数据中非常常见。

应对：研究员必须始终掌握主导权。用AI来验证你的猜想，而不是生成猜想。你的价值在于提出正确的问题和方向。例如，你先怀疑“这个删除操作是否在检查文件存在和实际删除之间存在时间差？”，然后再让AI帮你分析这两步操作的代码是否分离，以及如何构造竞争条件测试代码。

5.4 效率与成本的平衡

频繁、复杂的问答会消耗Token。虽然个人免费额度不少，但在高强度、长时间的分析中仍需注意。

应对：
1. 提炼问题 ：提问前自己先思考，问出精准的问题，避免开放式、模糊的提问导致AI生成冗长而无用的回答。
2. 使用代码块 ：让AI解释或生成代码时，使用代码块格式，清晰明了。
3. 总结对话 ：一个复杂的分析会话可能很长，定期让AI对之前的讨论要点进行总结，可以帮助你理清思路，也便于后续回溯。

6. 与其他AI编程助手的横向对比体验

在安全研究场景下，我也对比过其他工具，如Fitten Code（现已升级为通义灵码）和GitHub Copilot。以下是主观体验：

通义灵码 vs. GitHub Copilot ：
- 代码补全 ：Copilot在单行或块补全上非常流畅，基于海量开源代码，有时能给出惊艳的片段。但在 深度代码理解和问答 上，灵码的对话式交互更有优势。对于“解释这段代码为什么有漏洞”这类需要推理的问题，灵码的答案通常更结构化、更详细。
- 中文支持 ：灵码对中文问题、中文代码注释的理解和生成，明显优于Copilot。在阅读和分析国内开源项目（如很多CMS）时，这点至关重要。
- 上下文感知 ：两者都与IDE深度集成，但灵码在处理整个项目级别的问答时，感觉更“专注”于当前项目。
通义灵码 vs. 通用大模型（如ChatGPT） ：
- 专业性 ：灵码是专为编程场景优化的，在代码语法、API调用、调试建议上更精准。通用大模型虽然知识面广，但容易在代码细节上“胡说八道”。
- 工具集成 ：灵码直接集成在IDE里，无需切换窗口，可以随时对选中的代码进行操作，体验无缝。通用大模型需要复制粘贴。

个人选择 ：对于漏洞复现这种需要 深度交互、反复追问、理解项目特定代码 的工作，我目前更倾向于使用通义灵码作为主力的对话分析伙伴。而对于快速的代码片段生成或补全，Copilot和灵码的自动补全功能可以同时开启，互为补充。

7. 总结：人机协同，开启安全研究新范式

回顾整个利用通义灵码辅助复现未公开漏洞的实践，我的核心体会是： AI不是来取代安全研究员的，而是来放大我们能力的“力量倍增器” 。

它最擅长的，是替我们完成那些繁琐、重复、需要大量阅读的“体力活”：

快速扫描和定位可疑代码模式。
解释复杂或生疏的代码逻辑。
生成基础的工具代码和测试用例。
基于我们的思路，进行快速的代码变种和尝试。

而研究员的价值，则更加聚焦于：

战略制定 ：决定审计的方向，根据漏洞类型和经验选择切入点。
逻辑推理 ：将零散的线索串联成完整的攻击链，理解漏洞的本质。
创造性思维 ：构想出非常规的绕过方法和利用技巧。
最终判断与验证 ：对AI的输出进行终极审核，并在真实环境中验证。

这个过程，就像一位经验丰富的侦探（研究员）带着一位拥有超强记忆力和快速检索能力的助手（AI）。侦探负责提出关键问题、分析线索之间的关系、做出最终推论；助手则负责快速调取档案、比对信息、模拟场景。两者结合，破案效率自然大大提升。

最后一个小技巧：养成好的“提问工程”习惯。把你和灵码的对话，当作是在指导一位聪明但缺乏经验的实习生。问题要具体、有上下文、有明确的指令。例如，不说“这有漏洞吗？”，而说“在这段代码中，第23行的 $filename 变量直接来源于 $_POST[‘file’] ，并最终在第30行传入了 include() 函数。请分析是否存在文件包含漏洞，并指出需要满足哪些条件才能利用。” 清晰的提问，才能得到高质量的答案，真正让通义灵码成为你安全研究路上得力的“灵码”。

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

AI Agent 替你写代码没问题，但这 3 类后端任务让它当场翻车

先给你一个结果数字：单测编写这件事，我以前每次要花 40 分钟，现在 5 分钟交给 AI，自己只需要 review 10 分钟，整体省了 25 分钟。但线上故障排查，我让 AI 介入了 3 次，有 1 次它给出的修复方案引入了新问题，排查时间反而比自己来更长。这篇文章想说清楚的就是这件事：AI Agent 的真实天花板在哪。图：后端工程师使用 AI Agent 前后的工作感受对比。

CSDN-OPC开发者社区

从 KV Cache 到分布式状态机设计，一文讲透 AI Agent 的底层运行机制

CSDN-OPC开发者社区

你的 AI Agent 会在服务器上“修仙“——OpenClaw.NET 长持久会话技术解读

它们像是金鱼——每次对话都是全新的人生，上一秒的记忆下一秒就归零。我们管这叫"无状态架构"，翻译成人话就是：你的 Agent 根本不会"记得"自己做过什么。多数开发者听到"会话持久化"，第一反应是："不就是存聊天记录吗？"扔数据库里不就完了。这种理解也不能说错——毕竟如果连聊天记录都存不住，确实谈不上持久化。但 OpenClaw.NET 刚刚合并的 PR #174 告诉我们：远不止于此。4350