
Midscene.js 是一款开源的 AI 操作助手,适用于 Web 和 Android 场景,其官网为(https://midscenejs.com/zh/index.html)。它基于多模态大语言模型,能让用户使用自然语言控制页面、执行断言以及提取数据。以下是其平台简介:
核心功能
自然语言交互:用户只需描述目标和步骤,Midscene.js 就会为其规划并操作用户界面,如使用 “aiAction (‘ 逐个点击未完成的订单 ‘)” 就能跑完整流程。
多种 API 支持:提供交互 API、数据提取 API 和实用 API 三类 API。例如,“aiTap (‘ 搜索按钮 ‘)” 可执行点击操作,“aiQuery (‘ 商品名称和价格列表 ‘)” 能提取数据,“aiAssert (‘ 页面包含 “支付成功”’)” 可进行断言。
集成与兼容:支持集成 Puppeteer 和 Playwright,还能与 YAML 脚本集成,方便开发者进行自定义扩展和集成,适用于多种自动化测试场景。
可视化报告:每次运行后提供可视化报告,包括动画回放和步骤详情,如操作执行时间、操作前后页面元素的状态变化等,帮助用户轻松调试和优化测试流程。
运行模式
自动规划(Auto Planning):Midscene.js 会自动规划步骤并执行,适合一次性脚本,但可能速度较慢,且对 AI 模型的质量依赖较大。
工作流风格(Workflow Style):可将复杂逻辑拆分成多个步骤,通过循环或判断等操作提高自动化代码的稳定性。
支持的模型:支持多种多模态大语言模型和视觉语言模型,如 GPT-4o、Qwen2.5-VL、Doubao-1.5-thinking-vision-pro、gemini-2.5-pro、UI-TARS 等,其中视觉语言模型更适合用于 UI 自动化。
使用方式
Chrome 扩展:用户可以通过 Chrome 扩展程序立即开始体验,无需编写代码,可在任何网页上使用自然语言执行动作、查询和断言。
Android Playground:内置 Android Playground,可通过 Javascript SDK 与 adb 配合控制本地 Android 设备,实现 Android 应用的自动化测试。
技术优势
降低测试门槛:通过自然语言交互,非专业编程人员也能轻松开展 UI 自动化测试工作,跨职能团队可共享 “业务语言”,降低沟通成本。
提高脚本稳定性:AI 自愈机制使脚本维护成本减少 70%,基于大模型的智能化操作,无需准确指定元素的路径和识别方式,提升了自动化测试脚本的稳定性和可维护性。
数据统计
相关导航

GPT-SoVITS

OpenCode

DeepFlow
EmotiVoice

Shimmy

PoloAPI



