当前位置: 首页 > news >正文

能控制计算机桌面的多模态AI agent框架

随着llm的能力越来越强,基于LLM的多模态AI agent框架和桌面工具越来越接近实用。

这里收集这些开源的ai agent框架和桌面助手工具。

pyautogui

pyautogui是一个能够模拟鼠标、键盘等输入操作的 Python 库,可以轻松实现自动化操作。

https://zhuanlan.zhihu.com/p/23356032557

NeoAI

NeoAI无需编写代码,让 AI 用简单的自然语言指令接管你的电脑,支持文件管理、任务自动化、定时操作和跨平台设备控制,并内置安全保护。

https://github.com/TheD0ubleC/NeoAI

OmniParser-V2

通过一句话让DeepSeek LLM控制电脑的框架。

OmniParser: Screen Parsing tool for Pure Vision Based GUI Agent

https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

https://github.com/microsoft/OmniParser/tree/master

PC-Agent/MobileAgent

一种能使用LLM控制桌面工作的开源工具。

https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent

https://github.com/X-PLUG/MobileAgent/tree/main

OpenCUA/CUA

一个用于构建和扩展 CUA(使用计算机的智能体)的完全开源的框架。具体来说,该框架包括:

  • 一个用于捕获人类使用计算机的演示的注释工具
  • AgentNet,首个涵盖 3 个操作系统和 200 多个应用程序/网站的大规模数据集
  • 一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

https://arxiv.org/abs/2508.09123

https://github.com/trycua/cua

https://github.com/xlang-ai/OpenCUA

https://zhuanlan.zhihu.com/p/1890889365196109726

Cradle

Cradle 是BAAI‑Agents开源的一款面向通用计算机控制(GCC)的多模态 AI Agent 框架,可以让大型多模态模型,通过截图输入和键鼠输出,像人一样使用各种软件和游戏。

  • 通用目标:支持任意本地软件(如游戏、Office、图像/视频编辑工具)

  • 多模态输入:以截图为输入,支持键盘鼠标操作输出

  • 自主能力:内置“认知反思+技能更新”模块,能不断自我优化

  • 模块化设计:兼顾高可控性和扩展性,轻松适配新环境

https://github.com/BAAI-Agents/Cradle

NeuralAgent

NeuralAgent​ 是一款革命性的桌面AI助手,真正能够在用户桌面上执行操作。

与传统AI对话系统不同,NeuralAgent能够实际控制鼠标、键盘,操作浏览器,填写表单,发送邮件,真正实现"思考即执行"的智能化体验。

https://github.com/mosdehcom/neuralagent

Open-Interpreter

Open-Interpreter是可以联网的 ChatGPT 代码解释器。

https://github.com/OpenInterpreter/open-interpreter

refernece

---

使用Python实现鼠标与键盘自动化操作:从基础到实战应用

https://zhuanlan.zhihu.com/p/23356032557

Cradle:颠覆AI Agent 操作本地软件,AI驱动的通用计算机控制框架,如何让基础模型像人一样操作你的电脑?

https://www.cnblogs.com/xiaohuatongxueai/p/19017467

港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体

https://zhuanlan.zhihu.com/p/1939274895700784967

Cua:Mac用户狂喜!这个开源框架让AI直接接管你的电脑,快速实现AI自动化办公

https://zhuanlan.zhihu.com/p/1890889365196109726

OmniParser V2: Turning Any LLM into a Computer Use Agent

https://www.microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

http://www.zskr.cn/news/117098.html

相关文章:

  • 3分钟免费拥有macOS精致鼠标指针:Windows和Linux完美适配指南
  • Matlab Simulink 基于自适应的永磁同步电机无位置传感器控制系统 以PMSM做为控制对像
  • 国自然科学基金本子拟解决关键问题与创新点,如何利用AI分别进行辅助?
  • NocoDB容器化部署架构深度解析:从单机到云原生演进路径
  • 【python实用小脚本-324】耗时2小时→0人工|电商运营必学的价格监控自动化方案(建议收藏)
  • 医疗软件合规性测试体系构建与实战解析
  • 多场景 Shell 脚本实例,搞定系统 / 日志 / 数据库 / 容器
  • Wan2.1-I2V-14B-480P:消费级硬件上的高效图像到视频生成技术
  • Blender版本管理终极指南:告别混乱的完整解决方案
  • 零门槛体验通义千问:FlashAI一键部署大模型全攻略
  • Vue3-Admin-TS:TypeScript版Vue3后台管理模板完整指南
  • 2025 年最新客服机器人品牌排名在这里! - 品牌策略主理人
  • 品牌排行榜2026年EOR名义雇主服务前8款,助力企业高效拓展全球市场
  • 【Linux驱动开发】Linux Netlink 与 uevent 机制的原理与构建
  • C++14 变量模板(Variable Templates)详解
  • 又被 Cursor 烧了 1 万块,我麻了。。。
  • AI Agent上下文管理革命:从记忆碎片到智能连续体的技术突破
  • 传统农业升级路上的数字孪生实践
  • MySQL数据库全方位优化指南:从硬件到架构的深度调优
  • 文献综述免费生成工具推荐:高效完成学术文献综述的免费生成方法与技巧
  • 领英精准获客指南帮你突破
  • Docker容器化部署终极指南:快速搭建服务器环境
  • 教育法的规定,看来小时候都犯f了
  • “提示词即智能体”终极指南(附万能公式),从入门到精通,收藏这篇就够了!
  • SmartKG:从Excel到智能知识图谱的零代码革命
  • YOKOGAWA WT3000 横河 WT3000功率分析仪
  • BiliBili-UWP客户端:Windows系统专属B站应用全方位体验指南
  • 扒开Google的底裤!我花了72小时,硬刚gemini-cli源码,终于搞懂了AI Agent的核心!
  • 沉浸式视觉小说体验:TouchGal如何重新定义Galgame社区
  • Locale Remulator 终极使用指南:轻松实现系统区域模拟