Midscene.js

9个月前发布 90 0 0

基于多模态大语言模型，能让用户使用自然语言控制页面、执行断言以及提取数据

收录时间：

2025-10-24

打开网站手机查看

开源模型 # Midscene.js

Midscene.js

打开网站

Midscene.js 是一款开源的 AI 操作助手，适用于 Web 和 Android 场景，其官网为（https://midscenejs.com/zh/index.html）。它基于多模态大语言模型，能让用户使用自然语言控制页面、执行断言以及提取数据。以下是其平台简介：
核心功能
自然语言交互：用户只需描述目标和步骤，Midscene.js 就会为其规划并操作用户界面，如使用 “aiAction (‘ 逐个点击未完成的订单 ‘)” 就能跑完整流程。
多种 API 支持：提供交互 API、数据提取 API 和实用 API 三类 API。例如，“aiTap (‘ 搜索按钮 ‘)” 可执行点击操作，“aiQuery (‘ 商品名称和价格列表 ‘)” 能提取数据，“aiAssert (‘ 页面包含 “支付成功”’)” 可进行断言。
集成与兼容：支持集成 Puppeteer 和 Playwright，还能与 YAML 脚本集成，方便开发者进行自定义扩展和集成，适用于多种自动化测试场景。
可视化报告：每次运行后提供可视化报告，包括动画回放和步骤详情，如操作执行时间、操作前后页面元素的状态变化等，帮助用户轻松调试和优化测试流程。
运行模式
自动规划（Auto Planning）：Midscene.js 会自动规划步骤并执行，适合一次性脚本，但可能速度较慢，且对 AI 模型的质量依赖较大。
工作流风格（Workflow Style）：可将复杂逻辑拆分成多个步骤，通过循环或判断等操作提高自动化代码的稳定性。
支持的模型：支持多种多模态大语言模型和视觉语言模型，如 GPT-4o、Qwen2.5-VL、Doubao-1.5-thinking-vision-pro、gemini-2.5-pro、UI-TARS 等，其中视觉语言模型更适合用于 UI 自动化。
使用方式
Chrome 扩展：用户可以通过 Chrome 扩展程序立即开始体验，无需编写代码，可在任何网页上使用自然语言执行动作、查询和断言。
Android Playground：内置 Android Playground，可通过 Javascript SDK 与 adb 配合控制本地 Android 设备，实现 Android 应用的自动化测试。
技术优势
降低测试门槛：通过自然语言交互，非专业编程人员也能轻松开展 UI 自动化测试工作，跨职能团队可共享 “业务语言”，降低沟通成本。
提高脚本稳定性：AI 自愈机制使脚本维护成本减少 70%，基于大模型的智能化操作，无需准确指定元素的路径和识别方式，提升了自动化测试脚本的稳定性和可维护性。

数据统计

暂无评论

暂无评论...

Midscene.js

数据统计

相关导航

browser-use

Stagehand

linclaw·灵爪AI社区

Bytebot

ClawHub

RAGFlow

Shimmy

SQLBot

暂无评论

加入收藏夹

设为首页

网址

好趣网

番茄动漫

违法和不良信息举报中心（中央网信办）

Blush

摄图网

脉脉

啄木鸟投诉

百度号码标记申诉平台

12321举报中心举报平台

百度搜索

Midscene.js

数据统计

相关导航

browser-use

Stagehand

linclaw·灵爪AI社区

Bytebot

ClawHub

RAGFlow

Shimmy

SQLBot

暂无评论

加入收藏夹

设为首页

标签云

网址

好趣网

番茄动漫

违法和不良信息举报中心（中央网信办）

Blush

摄图网

脉脉

啄木鸟投诉

百度号码标记申诉平台

12321举报中心举报平台

百度搜索