当前位置：首页 > news >正文

UI-TARS 72B：重新定义AI与GUI交互的终极模型

news 2026/6/15 10:38:57

UI-TARS 72B：重新定义AI与GUI交互的终极模型

【免费下载链接】UI-TARS-72B-DPO项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-72B-DPO

导语

字节跳动最新发布的UI-TARS 72B-DPO模型，通过将感知、推理、定位和记忆功能深度整合到单一视觉语言模型中，实现了AI与图形用户界面(GUI)的端到端自动化交互，彻底改变了传统模块化GUI交互框架的局限。

行业现状

随着人工智能技术的快速发展，图形用户界面(GUI)已成为人机交互的主要方式，但传统的GUI自动化解决方案仍面临诸多挑战。目前主流的模块化框架需要预定义工作流程和手动规则设置，在面对复杂多变的界面环境时灵活性不足。据行业研究显示，企业级应用中约65%的自动化任务因GUI变化而需要频繁调整，导致维护成本居高不下。与此同时，多模态大模型的兴起为解决这一痛点提供了新思路，视觉语言模型(VLM)在界面理解和交互决策方面展现出巨大潜力。

产品/模型亮点

UI-TARS 72B-DPO作为新一代原生GUI代理模型，其核心创新在于突破了传统模块化框架的限制，将感知、推理、定位和记忆等关键组件全部集成到单一模型中，实现了真正意义上的端到端任务自动化。

该模型采用先进的视觉语言融合架构，能够像人类一样感知和理解GUI界面元素。在感知能力评估中，UI-TARS 72B在VisualWebBench数据集上达到82.8分，超越GPT-4o(78.5分)和Claude-3.5-Sonnet(78.2分)等主流模型；在SQAshort数据集上以88.6分的成绩位居榜首，展现出卓越的界面元素识别和理解能力。

定位能力方面，UI-TARS 72B在ScreenSpot Pro评测中以38.1的平均得分领先所有对比模型，其中在Desktop-Text类别中达到42.1分，Mobile-Icon/Widget类别中获得17.3分，证明其在复杂界面中精确定位元素的能力。这种精准的定位能力使得模型能够在无需人工标注的情况下，自动识别并操作各种界面元素。

在实际任务执行中，UI-TARS 72B表现尤为突出。在Multimodal Mind2Web评测中，该模型在跨任务元素准确率(Cross-Task Ele.Acc)上达到74.7分，操作F1值(Op.F1)92.5分，步骤成功率(Step SR)68.6分，全面领先于同类模型。在AndroidControl测试中，UI-TARS 72B在高难度任务上的成功率达到74.7%，较GPT-4o提升近3倍。

行业影响

UI-TARS 72B-DPO的出现将对多个行业产生深远影响。在企业服务领域，该模型有望大幅降低自动化流程的开发和维护成本，据估算可减少企业60%以上的GUI自动化相关支出。特别是在客户服务、数据分析和业务流程自动化等场景，UI-TARS能够快速适应不同软件界面，实现跨平台、跨应用的自动化操作。

在智能设备领域，UI-TARS技术将推动智能家居控制、车载信息娱乐系统等产品的交互体验升级。通过自然语言指令直接操控图形界面，用户无需学习复杂的操作流程，极大降低了智能设备的使用门槛。

对于软件开发行业，UI-TARS可能会改变传统的UI设计理念。未来的界面设计可能会更加注重机器可读性，形成"人机双友好"的设计范式。同时，自动化测试流程也将迎来变革，UI-TARS能够模拟真实用户行为，实现更全面、更高效的应用测试。

结论/前瞻

UI-TARS 72B-DPO标志着AI与GUI交互进入了一个新的时代。通过整合视觉语言模型的感知能力和决策能力，该模型实现了从"指令执行"到"意图理解"的跨越。随着技术的不断成熟，我们有理由相信，未来的人机交互将更加自然、高效，AI将真正成为我们操作数字世界的"智能助手"而非"机械执行者"。

值得关注的是，UI-TARS系列已推出从2B到72B不同规模的模型，形成了完整的产品矩阵，这意味着该技术不仅适用于高性能计算场景，也能在资源受限的边缘设备上部署。这种灵活性为UI-TARS的广泛应用奠定了基础，预示着GUI自动化将迎来普惠性发展。

【免费下载链接】UI-TARS-72B-DPO项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-72B-DPO

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

http://www.zskr.cn/news/172835.html

相关文章：

Multisim示波器在电路实验教学中的应用：入门必看指南

如何用KaniTTS实现低延迟高保真语音合成

ARM64汇编语言基础：新手教程与简单程序实践

PyTorch-CUDA-v2.6镜像如何降低Token计费系统的运维复杂度

PlugY插件：5大核心功能彻底重塑暗黑2单机体验

Parse12306：免费获取全国列车数据的终极方案

利用proteus示波器进行时序分析的教学方法详解

Unity Mod Manager终极指南：从零开始的模组管理完整教程

Prettify技术架构解析：现代Anki闪卡模板的工程实现

D3keyHelper终极指南：从手忙脚乱到精准操作的暗黑3自动化实战技巧

BetterNCM插件管理器终极攻略：重塑你的网易云音乐体验

dots.ocr：1.7B参数大模型实现多语言文档解析新突破

零基础也能懂：ZStack基础操作与界面使用指南

2025年12月江苏徐州古典舞舞校推荐排行 - 2025年品牌推荐榜

PyTorch-CUDA-v2.6镜像助力BERT模型微调全流程演示

WarcraftHelper魔兽争霸助手：让经典游戏焕发新生

2025年12月徐州古典舞学校推荐top5 - 2025年品牌推荐榜

Hunyuan3D-2：如何用AI快速生成高精度3D资产？

PyTorch-CUDA-v2.6镜像在学术论文润色工具中的集成

抖音视频批量下载神器：3步搞定全自动视频收集

魔兽争霸III兼容性终极解决方案：让经典游戏在Windows 11上完美运行

Jellyfin智能媒体中心：重新定义家庭影音体验的开源解决方案

AssetStudio深度解析：Unity资源逆向工程专家级操作指南

AssetStudio GUI界面完整使用指南：Unity资源提取终极教程

Equalizer APO完整使用教程：快速掌握系统级音频优化

WarcraftHelper终极指南：彻底解决魔兽争霸III兼容性问题

流媒体下载技术实战：从网络资源到本地收藏的完整解决方案

Elasticsearch终极管理指南：用Elasticvue轻松搞定集群运维

如何让魔兽争霸III在现代电脑完美运行：完整解决方案

谁是响应最快的 LLM API？全球 5 大聚合商 AI 大模型延迟与并发实测