基于Gemini大模型的智能UI自动化测试：告别脆弱选择器，拥抱自然语言驱动

weixin_30808693

376人浏览 · 2026-06-16 09:19:03

weixin_30808693 · 2026-06-16 09:19:03 发布

1. 项目概述：为什么我们需要“会说话”的UI测试？

如果你做过UI自动化测试，大概率经历过这样的场景：花了一下午写好的测试脚本，因为前端同事改了一个按钮的CSS类名，第二天就全挂了。然后你又得花半天时间，去定位那个新的、可能更复杂的CSS选择器。这种与“脆弱性”的持续斗争，几乎成了UI自动化测试的代名词。维护成本高、学习曲线陡峭、环境依赖复杂，让很多团队对自动化测试望而却步。

但有没有一种可能，我们只需要告诉测试工具“去登录，然后检查一下仪表盘标题是不是‘系统概览’”，它就能自己理解并执行？这正是“Gemini测试框架”所代表的新范式。这里的“Gemini”并非指某个单一的测试库，而是一个以Google的Gemini大语言模型为核心，结合一系列现代工具（如Model Context Protocol、BrowserMCP、Playwright）构建的智能体驱动测试生态。它试图将测试的焦点，从“如何实现”（写选择器、处理异步等待）转移到“测试什么”（业务意图和用户流程）上来。

简单来说，它让UI测试变得更像在跟一个懂技术的同事对话。你描述测试场景，它来负责把描述转化成可靠、可执行的自动化动作。这对于测试工程师、开发人员乃至产品经理来说，都意味着测试门槛的显著降低和效率的极大提升。接下来，我将带你从零开始，深入这个生态的每一个核心组件，手把手教你搭建一套属于自己的、基于自然语言的UI自动化测试方案。

2. 核心生态拆解：MCP、BrowserMCP与Playwright的角色

要玩转Gemini测试框架，首先得理解它背后的“三驾马车”：Model Context Protocol (MCP)、BrowserMCP和Playwright。它们各司其职，共同构成了一个从意图理解到浏览器操控的完整链条。

2.1 Model Context Protocol (MCP)：AI的“万能插头”

你可以把MCP想象成AI世界的“USB-C接口”。在过去，如果你想让人工智能去操作浏览器、查询数据库或者调用某个API，开发者需要为每一个工具、每一个AI模型编写特定的“连接器”代码。这是一个“M x N”的集成噩梦：每增加一个新工具或换一个AI模型，工作量就成倍增加。

MCP的出现就是为了解决这个问题。它定义了一套开放标准，让任何兼容MCP的AI智能体（比如Gemini CLI）都能发现、理解并调用外部工具（即MCP服务器）。作为开发者，你只需要按照MCP标准开发或使用现成的工具服务器（例如一个控制浏览器的服务器），AI智能体就能通过这个通用协议去使用它，无需你为每个AI写一遍调用逻辑。

在实际测试中的应用 ：当我们通过Gemini CLI说“去登录”时，Gemini模型本身并不知道如何操作浏览器。但它会通过MCP协议，发现我们已配置好的BrowserMCP服务器，然后将“登录”这个自然语言指令，翻译成BrowserMCP能理解的“点击登录按钮、在用户名框输入文本”等一系列结构化操作命令。MCP充当了翻译官和调度员的角色。

2.2 BrowserMCP：给AI装上“眼睛”和“手”

BrowserMCP是一个具体的MCP服务器实现。它的功能非常直接：为AI智能体提供与真实浏览器（目前主要是Chrome/Chromium内核浏览器）交互的能力。

它的工作模式是“附着式”的 ：你需要先在Chrome浏览器中安装一个BrowserMCP扩展程序。这个扩展程序会与本地运行的BrowserMCP服务器通信。当AI智能体通过MCP发出指令时，服务器会通过这个扩展程序，控制你指定标签页内的浏览器，执行导航、点击、输入、读取DOM等操作。

优点与适用场景 ：

快速原型与交互式调试 ：因为它附着于真实的浏览器窗口，你能实时看到AI每一步的操作，非常适合快速验证某个用户流程是否可被自动化，或者进行交互式的探索性测试。
无需编写选择器 ：AI通过扩展程序能“看到”页面，它可以基于按钮文字、邻近元素等上下文来定位元素，减少了因DOM结构微调导致的脚本失效。
简单直接 ：配置相对简单，适合轻量级、一次性的自动化任务。

实操心得 ：使用BrowserMCP时，务必确保目标网页在 已连接扩展程序的那个标签页 中打开。它的控制是基于具体浏览器实例的，而不是凭空创建一个新会话。这既是它的特点，也是限制。

2.3 Playwright：专业、健壮的自动化引擎

如果说BrowserMCP是灵活轻便的“特种小队”，那么Playwright就是重型、全能的“机械化部队”。它是一个成熟、强大的开源浏览器自动化框架，支持Chromium、Firefox和WebKit三大浏览器引擎。

在Gemini测试框架中的角色 ：我们并非直接让AI去学习Playwright复杂的API，而是通过“技能”（Skill）的机制。我们可以为AI提供一个关于“如何使用Playwright CLI”的技能文档。当AI需要执行复杂任务时，它会动态读取这份技能，从而“学会”如何调用Playwright命令来完成工作。

相比于BrowserMCP的优势 ：

独立性 ：Playwright可以自行启动和关闭浏览器进程，无需依赖一个已打开的、安装了特定扩展的浏览器。这使得它更容易集成到持续集成（CI/CD）流水线中。
无头模式 ：可以在没有图形界面的服务器上运行测试，极大节省资源，适合自动化测试。
多浏览器支持 ：一套脚本可跨浏览器测试。
强大的API ：提供网络拦截、文件下载/上传、截图、录屏等丰富功能，能处理更复杂的测试场景。
确定性更强 ：Playwright内置了智能等待、重试机制，能更好地处理页面加载和元素状态，减少“脆性测试”。

核心选择逻辑 ：对于需要纳入CI/CD、要求高稳定性、可重复性，且测试场景复杂的正式测试用例，应优先选用基于Playwright的方案。对于快速验证、临时性任务或与现有浏览器会话交互的场景，BrowserMCP更便捷。

3. 环境搭建与工具配置实战

理论讲完，我们动手搭建环境。我将以在Linux/macOS（或WSL2）环境下的操作为例，Windows原生环境可能略有路径差异，但核心步骤一致。

3.1 基础环境准备

首先，确保你的系统已安装以下基础工具：

Node.js (>= 18) ：Playwright CLI和示例应用依赖它。可通过 node -v 检查。
Git ：用于克隆示例代码库。
Chrome/Chromium浏览器 ：用于BrowserMCP测试。

接下来，我们需要一个用于测试的Web应用。这里我们使用一个名为“Dazbo Omni-Dash”的模拟仪表盘应用，它包含了登录、动态数据等典型测试元素。

# 1. 克隆包含演示应用的代码库
git clone https://github.com/derailed-dash/agentic-ui-testing
cd agentic-ui-testing

# 2. 安装应用依赖
npm install --prefix demo-app

# 3. 启动演示应用
npm run dev --prefix demo-app

应用启动后，通常会运行在 http://localhost:5173 。用浏览器打开这个地址，你应该能看到一个需要登录的深色主题仪表盘。让这个终端窗口保持运行。

3.2 安装与配置Gemini CLI

Gemini CLI是我们与AI智能体交互的主命令行工具。它允许我们通过自然语言发出指令，并由它协调背后的MCP工具去执行。

# 使用npm全局安装Gemini CLI
npm install -g @google/gemini-cli

安装完成后，在终端输入 gemini 即可启动交互式CLI。首次启动时，它会引导你进行身份验证。对于个人学习和测试，强烈建议选择“使用Google账号登录”选项。这提供了免费的API配额，足够我们完成本指南的所有实验，且无需创建Google Cloud项目。

重要提示 ：请确保你使用的Google账号所在区域支持Gemini API服务。如果遇到“your current account is not eligible”这类错误，通常是因为账号地区限制，可以尝试更换账号或查看官方服务可用地区列表。

登录成功后，你就进入了Gemini CLI的对话界面。你可以像跟ChatGPT聊天一样输入指令，但它的强大之处在于能调用我们后面配置的工具。

3.3 配置BrowserMCP：连接AI与真实浏览器

第一步：安装BrowserMCP扩展

打开Chrome浏览器，访问Chrome网上应用店，搜索“BrowserMCP”并安装该扩展程序。
安装后，点击浏览器工具栏中的BrowserMCP扩展图标。你会看到一个简单的界面，上面有一个“连接”（Connect）按钮。

第二步：为Gemini CLI安装BrowserMCP扩展（MCP服务器） 在 另一个 终端窗口（保持演示应用的那个终端继续运行）中，启动Gemini CLI ( gemini )，然后安装BrowserMCP的MCP服务器扩展：

# 在Gemini CLI交互界面中，输入以下命令
/extensions install https://github.com/derailed-dash/browsermcp-ext

这个命令会从GitHub拉取BrowserMCP服务器的定义并配置到Gemini CLI中。

第三步：建立连接并测试

确保你的浏览器正打开着演示应用 ( http://localhost:5173 )。
点击BrowserMCP扩展图标，然后点击“连接”。此时，这个标签页就处于待控制状态。
回到Gemini CLI界面，输入以下测试指令：

Using BrowserMCP, go to http://localhost:5173, log out if already logged in, then log in as 'admin' with password 'password'. After logging in, tell me the title of the dashboard page.

Gemini CLI会分析你的指令，列出它计划调用的BrowserMCP工具（如 navigate , click , type 等）并请求你的确认。确认后，你将看到浏览器被自动操作：页面刷新、输入框被填入信息、登录按钮被点击。片刻之后，CLI会返回结果，告诉你仪表盘的标题。

注意事项 ：

会话独立性 ：BrowserMCP控制的是 当前已连接的标签页 。如果你不小心关闭了标签页或断开了连接，需要重新连接。
权限确认 ：每次会话中，Gemini CLI首次调用工具时都会请求确认。你可以输入 always allow 来允许本次会话中的所有操作。
速度与稳定性 ：由于依赖于真实浏览器渲染和网络，执行速度不如无头模式快，且可能受浏览器插件、弹窗等干扰。

3.4 配置Playwright技能：赋予AI专业测试能力

现在，我们来配置更强大的Playwright方案。首先退出Gemini CLI（输入 /quit ）。

第一步：全局安装Playwright CLI及相关依赖

# 安装Playwright命令行工具
npm install -g @playwright/cli@latest

# 安装Playwright测试库（为后续可能的高级用法做准备）
npm install @playwright/test

# 安装系统依赖（Linux/WSL）
npx playwright install-deps

# 安装浏览器二进制文件（我们主要用Chromium和Chrome）
npx playwright install chromium chrome

第二步：为Gemini CLI添加Playwright技能 “技能”本质上是一个Markdown文档，里面描述了如何使用某个工具（这里是Playwright CLI）。Gemini CLI会在需要时读取它。

# 创建Gemini技能目录（如果不存在）
mkdir -p ~/.gemini/skills

# 从Microsoft官方仓库下载Playwright CLI技能
npx degit microsoft/playwright-cli/skills/playwright-cli ~/.gemini/skills/playwright-cli

默认的技能可能只关注无头模式。为了调试时能看到浏览器，我们可以稍作增强。编辑技能文件 ~/.gemini/skills/playwright-cli/SKILL.md ，在相关部分添加对 --headed 参数的说明，让AI知道如何启动可见浏览器。

第三步：禁用BrowserMCP，测试Playwright技能 为了避免工具冲突，我们暂时禁用BrowserMCP。

重新启动Gemini CLI ( gemini )。
在CLI中输入： /mcp disable browsermcp 。
现在，输入一个使用Playwright的指令：

Using the Playwright skill, start a new browser session and navigate to http://localhost:5173. Log in as 'admin' with password 'password'. After successful login, take a full-page screenshot and save it as `login_success.png`. Then, find and read the text content of the element that contains the main dashboard title.

这次，你会发现浏览器在后台自动启动（你可能看不到窗口，因为默认无头），执行操作，并在你的当前目录下生成 login_success.png 截图文件。整个过程无需你手动打开浏览器或连接扩展。

关键区别体验 ：使用Playwright时，AI是通过技能“学会”了调用 playwright-cli open 这样的命令来驱动浏览器的。这是一个更独立、更接近于传统自动化脚本但由自然语言触发的过程。

4. 从简单到复杂：编写你的第一个智能测试用例

掌握了工具配置，我们来设计测试用例。智能体测试的核心在于用自然语言清晰描述测试意图、预期结果和验证点。

4.1 用例设计思维转变

传统脚本思维：

// 伪代码
await page.goto('http://localhost:5173');
await page.locator('input[name="username"]').fill('admin');
await page.locator('input[name="password"]').fill('password');
await page.locator('button:has-text("Login")').click();
await expect(page.locator('h1')).toHaveText('System Overview');

你需要关心：选择器是什么、填充哪个输入框、点击哪个按钮、等待什么条件。

智能体测试思维：

访问应用首页，使用管理员凭据(admin/password)完成登录。验证登录成功后，主仪表盘的标题显示为“System Overview”。最后，将页面上的所有遥测卡片的标签和当前数值读取出来，以JSON格式返回给我。

你关心的是：流程和结果。至于如何找到登录框、如何判断登录成功、如何定位遥测卡片，交给智能体基于当前页面上下文去判断。

4.2 基础功能测试用例实战

用例1：用户登录流程测试 我们通过Gemini CLI结合BrowserMCP来执行。

确保BrowserMCP扩展已连接到演示应用标签页。
在Gemini CLI中输入：

Act as a QA tester. Using BrowserMCP, test the login functionality of the application at http://localhost:5173. Perform the following steps:
1. Navigate to the login page.
2. Attempt to login with an incorrect username and password (try 'wrong' / 'wrong'). Verify that an appropriate error message is displayed.
3. Clear the inputs, then login with the correct credentials ('admin' / 'password').
4. After login, verify that the user is redirected to the dashboard and the page title contains 'Overview'.
5. Log out from the application.
6. Confirm that you are back on the login page.
After each step, provide a brief success/failure status.

这个提示词结构清晰，步骤明确，并且包含了正向和反向测试案例。智能体会逐步执行，并汇报每一步的结果。

用例2：数据一致性验证（使用Playwright） 假设仪表盘上的某些数据应该在一定范围内，或者多个位置的数据应该一致。

Using the Playwright skill, log into the application at http://localhost:5173 as admin. On the main dashboard, locate all cards or widgets that display numerical values (like CPU usage, memory, network throughput). Extract both the label (e.g., "CPU Load") and the current value. Save this list. Then, click on the 'Refresh Data' button (or its equivalent). Wait for 5 seconds for data to update. Extract the same set of values again. Compare the two sets. Are any values exactly the same? Report any values that did not change after a refresh, as this might indicate a stale data issue.

这个用例展示了如何利用智能体进行动态数据验证，甚至包含简单的逻辑判断（“数据是否更新”）。

4.3 高级场景：多页面流程与视觉验证

场景：端到端工单创建与状态检查 现代应用往往涉及多页面跳转和状态流转。我们可以设计一个更复杂的流程。

You are testing a ticketing system workflow. Using Playwright in headed mode so I can observe:
1. Start at the application homepage and login.
2. Navigate to the 'Create New Ticket' section.
3. Fill out a new ticket with the following details:
   - Title: "UI Automation Test Ticket - <current timestamp>"
   - Description: "This is a test ticket created by an AI-powered automation script."
   - Priority: High
   - Category: Bug
4. Submit the ticket and note the generated ticket ID from the confirmation page.
5. Navigate to the 'All Tickets' or 'My Tickets' view.
6. Use the search or filter function to locate the ticket you just created using its ID or title.
7. Verify that the ticket's status is 'Open' and its priority is correctly set to 'High'.
8. Take a screenshot of the ticket row in the list and save it as `ticket_created_<timestamp>.png`.

这个提示词包含了数据生成（带时间戳的标题）、导航、表单填写、提交、状态查询和视觉证据保存。智能体需要理解整个业务流程并依次执行。

视觉验证技巧 ：虽然目前的智能体不直接进行图像对比，但通过指令让其“在关键步骤截图”，我们可以轻松地建立测试执行的视觉证据链，这对于调试和报告非常有用。结合“读取屏幕上特定位置的文本”，可以实现基础的视觉回归测试。

5. 集成与进阶：在CI/CD中运行与技能定制

将智能体测试融入开发流水线，才能最大化其价值。同时，为了应对更复杂的专属场景，我们可能需要定制自己的技能。

5.1 在CI/CD流水线中运行智能体测试

由于Playwright支持无头模式且环境独立，它是CI/CD集成的首选。核心思路是将Gemini CLI的交互过程脚本化。

方案：使用Expect或类似工具编写交互脚本 我们不能直接在CI脚本中等待人工输入，但可以用 expect （或 pty.js 等Node库）来模拟终端交互，自动回复确认提示。

一个简化的Bash脚本示例 ( run_agentic_test.sh )：

#!/bin/bash
# 启动演示应用（后台运行）
cd /path/to/agentic-ui-testing
npm run dev --prefix demo-app &
APP_PID=$!
sleep 5 # 等待应用启动

# 准备一个输入管道给gemini CLI
{
  # 等待Gemini CLI启动并出现提示符，然后发送测试指令
  sleep 2
  echo "Using the Playwright skill, log into http://localhost:5173 as admin, verify dashboard title, and exit."
  sleep 10 # 根据测试复杂度调整等待时间
  echo "/quit"
} | gemini

# 检查测试结果？这里需要更复杂的逻辑来解析Gemini的输出
# 例如，可以重定向输出到文件，然后用grep检查是否包含成功关键词
# if tail -n 20 gemini_output.log | grep -q "Dashboard title verified"; then ...

# 清理
kill $APP_PID

更可行的方案 ：直接使用Playwright Test Runner编写传统自动化脚本，对于复杂逻辑的测试，这仍然是更稳定可靠的选择。而将Gemini智能体测试作为 测试用例生成器 或 探索性测试的辅助工具 ，在CI中定期运行以发现新问题，可能是当前更合理的结合方式。

5.2 创建自定义技能应对专属场景

假设你的公司有一个内部组件库，或者测试流程中有一些固定操作（如连接特定测试数据库、调用内部认证接口）。你可以为这些操作创建自定义技能。

技能文件结构 ：一个技能通常是一个目录，里面包含一个 SKILL.md 文件。

~/.gemini/skills/my-company-test/
└── SKILL.md

SKILL.md 内容示例：

# My Company Internal Test Skill

This skill equips the agent with knowledge on how to perform common testing tasks for our internal applications.

## Prerequisites
*   Ensure the internal test environment is running (`npm run start:test-env`).
*   The default test user credentials are `test@company.com` / `TestPass123!`.

## Common Commands

### 1. Deploy and Seed Test Database
To start with a fresh test database, run:
```bash
cd /path/to/backend
./scripts/reset-test-db.sh

2. Generate Test Auth Token

Our API requires a Bearer token. To generate one for the test user:

curl -X POST http://localhost:3000/api/auth/test-token -H "Content-Type: application/json" -d '{"email":"test@company.com"}'

The token will be in the response JSON under data.token .

3. Run Specific Test Suite

To run only the UI component tests:

cd /path/to/frontend
npm test -- --grep "ComponentSuite"

Example Agent Prompt

"When testing the user profile page, first ensure the test database is seeded, then obtain an auth token, and finally run the component test suite for the profile module."

然后，你可以通过Gemini CLI的 `/skills add /path/to/skill` 命令加载这个技能。之后，当你对智能体说“请为测试用户配置文件页面做准备”，它就会参考这份技能文档，执行重置数据库、获取令牌等操作。

### 5.3 结合Chrome DevTools MCP进行深度调试

除了BrowserMCP和Playwright，谷歌还提供了 **Chrome DevTools MCP** 服务器。它的优势在于无需安装浏览器扩展，直接通过Chrome的远程调试协议控制浏览器，甚至可以在无头模式下运行，更接近Playwright的独立性，同时又具备BrowserMCP的某些灵活性。

**配置步骤简述**：
1.  安装扩展：`gemini extensions install https://github.com/ChromeDevTools/chrome-devtools-mcp`
2.  确保系统已安装Chrome或Chromium。
3.  修改扩展配置文件 (`~/.gemini/extensions/chrome-devtools-mcp/gemini-extension.json`)，指定浏览器可执行文件路径和无头模式。
4.  在Gemini CLI中即可像使用BrowserMCP一样使用它，但它能启动独立的浏览器实例。

这为在服务器环境（如Cloud Shell）中进行自动化测试提供了另一个强大的选项。

## 6. 常见问题、局限性与最佳实践

任何新技术都有其边界。在实践中，我遇到了以下典型问题，并总结了一些应对策略。

### 6.1 典型问题与排查清单

| 问题现象 | 可能原因 | 排查步骤与解决方案 |
| :--- | :--- | :--- |
| Gemini CLI 提示“Account not eligible” | 1. 账号所在地区不支持Gemini API。<br>2. 使用的是Google Workspace账号，管理员可能禁用了API。 | 1. 尝试使用个人Gmail账号登录。<br>2. 检查Gemini API的官方服务可用地区列表。<br>3. 如果必须用Workspace账号，联系管理员启用相关服务。 |
| BrowserMCP扩展显示“已连接”，但AI无反应 | 1. 扩展连接的标签页不是目标应用。<br>2. Gemini CLI中未正确安装或启用BrowserMCP MCP服务器。<br>3. 页面有弹窗或遮罩层阻碍操作。 | 1. 确认目标网页在**已连接**的标签页中。<br>2. 在Gemini CLI中输入 `/mcp list`，查看`browsermcp`是否在列表中且状态正常。<br>3. 尝试在提示词中明确指令“关闭任何弹出的模态框”。 |
| Playwright技能执行失败，提示浏览器未安装 | Playwright的浏览器二进制文件未安装或损坏。 | 1. 运行 `npx playwright install` 重新安装所有浏览器。<br>2. 检查Node版本和Playwright CLI版本兼容性。<br>3. 对于Linux/WSL，确保已安装系统依赖：`npx playwright install-deps`。 |
| 智能体执行动作顺序错误或遗漏步骤 | 1. 提示词语义模糊，存在歧义。<br>2. 页面加载慢，智能体未等待元素出现就执行下一步。 | 1. **优化提示词**：将复杂任务拆分成更小、更明确的步骤。使用“首先…然后…接着…最后”等序列词。<br>2. **在提示词中明确等待**：例如，“登录后，**等待页面导航完成**，直到看到标题为‘Dashboard’的页面”。<br>3. 对于Playwright，技能本身会包含等待逻辑，通常比BrowserMCP更稳定。 |
| 截图或文件保存失败 | 指定的输出目录不存在，或智能体没有该目录的写入权限。 | 1. 在提示词中指定绝对路径，或先确保相对路径的目录存在。<br>2. 对于Playwright，可以先用简单命令测试：`playwright-cli open example.com --headed` 看是否能正常启动浏览器。 |

### 6.2 当前模式的局限性

1.  **非绝对可靠**：基于大语言模型的智能体，其决策具有概率性。同样的提示词，在不同时间执行可能会因为页面微小的渲染差异而产生不同的元素定位策略，虽然比固定选择器健壮，但并非100%确定。
2.  **执行速度**：由于需要经过“自然语言理解->规划动作->调用工具->执行”的链条，其执行速度通常比编写良好的传统脚本慢。不适合对执行时间有极端要求的超大规模测试集。
3.  **复杂逻辑处理**：处理需要大量条件判断、循环或从复杂数据结构中提取并计算数据的测试场景时，纯自然语言指令会变得冗长且容易出错。此时，混合模式（智能体+传统脚本）更优。
4.  **成本**：虽然Gemini CLI个人使用有免费配额，但大规模、高频次调用API会产生费用。需要监控使用量。

### 6.3 最佳实践建议

1.  **提示词工程是关键**：把你当成一个在指导新人的测试专家。指令要**具体、无歧义、包含验证点**。好的提示词 = 清晰上下文 + 明确步骤 + 预期结果。例如，不说“检查错误”，而说“在提交空表单后，验证页面顶部会出现一个包含‘此字段为必填项’文字的红色错误提示框”。
2.  **混合模式策略**：不要试图用智能体完全替代所有传统UI测试。将之用于：
    *   **探索性测试**：快速验证新功能或随机流程。
    *   **测试用例生成**：描述场景，让智能体执行并记录下步骤，转化为传统的自动化脚本。
    *   **维护脚本**：当页面变化导致旧脚本失败时，用智能体快速探索新页面结构，辅助更新选择器。
    *   **复杂流程的“粘合剂”**：用智能体处理那些难以用脚本描述（如基于图像或模糊文本定位）的步骤。
3.  **善用“技能”封装领域知识**：将公司特有的环境设置、数据准备、工具调用方法封装成技能，能极大提升提示词的简洁性和执行准确性。
4.  **视觉证据留存**：在关键检查点（如登录成功、提交完成、错误状态）提示智能体截图。这些截图是宝贵的调试和报告资产。
5.  **从小处开始，逐步扩展**：先从一个简单的登录测试开始，熟悉整个流程。然后尝试一个包含3-4步的用户流程。再逐步过渡到更复杂的场景。避免一开始就设计一个几十步的端到端测试。

我个人在实际项目中引入这套框架的体会是，它极大地提升了编写自动化测试的“启动速度”和应对UI变化的“韧性”。对于快速覆盖核心冒烟测试、辅助编写复杂测试脚本以及让非技术成员（如产品经理）也能参与测试用例设计方面，它展现出了独特的价值。当然，它不会一夜之间取代你现有的Selenium或Playwright测试套件，但它无疑是一个强大的补充，甚至是一个通向更智能、更自适应测试未来的桥梁。

CSDN-OPC开发者社区

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容，并连接云服务、办公空间等稀缺资源，助你专注创造，无忧运营。

更多推荐

帮我构思一个项目：Trae、Codearts atomcode 等AI agent的调度中心优先windows系统，通过句柄获得这些AI agent的任务信息，对其进行跟踪，用户可以通过调度中心发布

项目摘要：群星（Star）- AI Agent调度中心群星（Star）是一个面向Windows系统的AI Agent调度平台，旨在统一管理Trae、CodeArtsAtom等AI助手。项目通过系统级API（如句柄、进程监控）实现任务跟踪与调度，用户可通过中心发布、修改任务并实时监控反馈。核心功能：星图：自动识别运行中的AI Agent进程星轨：任务队列管理（创建/分配/修改）星语：实时捕