UI-TARS 开源多模态 GUI Agent,让大模型替你操作屏幕
还在为重复的 GUI 操作烦恼吗?由字节跳动开源的多模态 Agent 框架 UI-TARS,让大模型像人一样“看”屏幕并执行点击、输入、拖拽等动作,无需 OCR 或坐标硬编码,直接将视觉截图转化为操作指令。对于 AI 应用开发者、自动化测试工程师或 RPA 从业者来说,这可能是打通“感知-推理-行动”闭环最直接的落地选择。核心看点- 原生视觉理解:基于视觉语言模型(VLM)直接处理截图,无需借助 OCR 或 DOM 解析,模型自己“看懂”按钮、文本框和层级关系。 - 感知-推理-行动闭环:内置回溯、反射机制,遇到弹窗、加载态等动态变化能自动调整策略,不是机械执行脚本。 - 开源可控:采用 Apache-2.0 许可证,提供完整训练、评估、部署代码,可基于自己的业务场景微调,不依赖闭源 API。▲ github.com(阿里云通义万相生成配图,非网页截图)适合谁适合 AI 应用开发者(想集成 GUI 自动化能力)、前端/QA 工程师(替代脆弱的录屏回放)、以及研究多模态 Agent 方向的同学。运行时建议至少一张 24G 显存的 GPU(如 RTX 3090/4090 或 A10),支持 Linux 环境,需要 PyTorch。权重下载及模型条款以仓库 LICENSE 和 README 为准。想深入体验“视觉 Agent”如何落地?直接打开 UI-TARS 仓库主页 查看快速开始教程和 demo 视频,Release 页还有预训练权重可直接下载。

