想象一下,人工智能不仅会思考,还会观察和行动,像专业人士一样与 Windows 11 界面进行交互。微软的 OmniParser V2 和 OmniTool 将让这一切成为现实,它们将为重新定义任务自动化和用户体验的自主图形用户界面代理提供动力。本文将深入探讨它们的功能,为您提供实践指南,帮助您设置本地环境并释放它们的潜能。从简化工作流程到应对现实世界的挑战,让我们一起来探索这些工具如何改变你的工作和娱乐方式。准备好构建自己的视觉代理了吗? 学习目标了解 OmniParser V2 和 OmniTool 在人工智能驱动的 GUI 自动化中的核心功能。 了解如何为本地使用设置和配置 OmniParser V2 和 OmniTool。 使用视觉模型探索人工智能代理与图形用户界面之间的交互。 确定 OmniParser V2 和 OmniTool 在自动化和可访问性方面的实际应用。 在部署自主图形用户界面代理时,认识负责任的人工智能注意事项和风险缓解策略。 什么是Microsoft OmniParser V2?OmniParser V2 是一款复杂的人工智能屏幕解析器,旨在从图形用户界面中提取详细的结构化数据。它通过两个步骤运行: 检测模块:利用精心调整的 YOLOv8 模型来识别屏幕截图中的按钮、图标和菜单等交互元素。 字幕模块:利用 Florence-2 基础模型为这些元素生成描述性标签,阐明它们在界面中的功能。 这种双重方法使大型语言模型(LLM)能够全面理解图形用户界面,从而促进准确的交互和任务执行。与前代产品相比,OmniParser V2 具有显著的增强功能,包括延迟减少 60%,准确性提高,特别是对于较小的元素。 什么是OmniTool?OmniTool 是一个 docker 化的 Windows 系统,它将 OmniParser V2 与 OpenAI、DeepSeek、Qwen 和 Anthropic 等领先的 LLM 集成在一起。这种集成使人工智能代理能够完全自主地进行代理操作,使它们能够独立执行任务并简化重复的图形用户界面交互。OmniTool 提供了一个用于测试和部署代理的沙盒环境,确保真实世界应用的安全性和效率。 Source: Author 设置OmniParser V2要充分发挥 OmniParser V2 的潜力,请按照以下步骤设置本地环境: 前提条件确保系统中已安装 Python。 使用 Conda 环境安装必要的依赖项。 安装从 GitHub 克隆 OmniParser V2 代码库。 git clone https://github.com/microsoft/OmniParser cd OmniParser 激活 Conda 环境并安装所需软件包。 - conda create -n "omni" python==3.12 #conda activate omni使用 huggingface-cli 下载 V2 权重(icon_caption_florence)。 rm -rf weights/icon_detect weights/icon_caption weights/icon_caption_florence huggingface-cli download microsoft/OmniParser-v2.0 --local-dir weights mv weights/icon_caption weights/icon_caption_florence 测试启动 OmniParser V2 服务器并使用示例截图测试其功能。 - python gradio_demo.py您可以阅读此文,了解如何在本地部署 OmniParser V2。 要充分发挥 OmniTool 的潜力,请按照以下步骤设置本地环境: 先决条件 虚拟机设置用以下命令导航到 vm 管理脚本目录 cd OmniParser/omnitool/omnibox/scripts创建 docker 容器 [400MB],并使用 ./manage_vm.sh create 将 ISO 安装到存储文件夹 [20GB] 中。整个过程如下面的截图所示,视下载速度而定,需要 20 至 90 分钟(通常为 60 分钟左右)。完成后,终端将显示 VM + 服务器已启动并运行。通过 NoVNC 查看器(:8006/vnc.html view_only=1&autoconnect=1&resize=scale )查看桌面,可以看到虚拟机中安装的应用程序。设置完成后,NoVNC 查看器中显示的终端窗口将不会在桌面上打开。如果能看到,请稍候,不要随意点击! 首次创建后,它会在 vm/win11storage 中保存虚拟机状态。然后,你可以使用 ./manage_vm.sh start 和 ./manage_vm.sh stop 管理虚拟机。要删除虚拟机,请使用 ./manage_vm.sh delete 并删除 OmniParser/omnitool/omnibox/vm/win11storage 目录。 在gradio中运行OmniTool运行以下命令进入 gradio 目录:cd OmniParser/omnitool/gradio 使用以下命令激活 conda 环境:conda activate omni 使用以下命令启动服务器: python app.py -windows_host_url localhost:8006 -omniparser_server_url localhost:8000 打开终端中显示的 URL,输入 API 密钥,然后开始与 AI 代理交互。 确保 OmniParser 服务器、OmniTool VM 和 Gradio 界面在不同的终端窗口中运行。 输出: 环境设置完成后,您可以使用 Gradio UI 向代理提供命令。通过该界面,您可以观察代理在 OmniBox 虚拟机中的推理和执行情况。使用实例包括 打开应用程序:通过识别图标或菜单项,使用代理启动应用程序 导航菜单:通过识别特定的用户界面元素并与之交互,实现菜单导航自动化。 执行搜索:利用代理在应用程序或网络浏览器中执行搜索。 OmniTool支持的视觉模型OmniTool 开箱即支持各种最先进的视觉模型,包括 OpenAI (4o/o1/o3-mini):因其在理解复杂 UI 元素方面的多功能性和性能而闻名。 DeepSeek (R1):具有强大的识别图形用户界面组件并与之交互的能力。 Qwen (2.5VL):为详细的用户界面分析和自动化提供高级功能。 Anthropic(Sonnet):通过复杂的语言理解和生成功能增强代理能力。 负责任的人工智能考虑因素和风险为了与微软的人工智能原则和负责任的人工智能实践保持一致,OmniParser V2 和 OmniTool 采用了多项风险缓解策略: 训练数据:图标标题模型使用负责任的人工智能数据进行训练,以避免从图标图像中推断出敏感属性。 威胁模型分析:使用 Microsoft 威胁建模工具进行分析,以识别和解决潜在风险。 用户指导:建议用户仅对不包含有害或暴力内容的屏幕截图应用 OmniParser。 人工监督:鼓励人工监督,将与自主代理相关的风险降至最低。 真实世界应用OmniParser V2 和 OmniTool 的功能可实现广泛的应用: 用户界面自动化:自动实现与图形用户界面的交互,以简化工作流程。 无障碍解决方案:为辅助技术提供结构化数据,增强用户体验。 用户界面分析:根据提取的结构化数据评估和改进用户界面设计。 小结OmniParser V2 和 OmniTool 代表着人工智能可视化解析和图形用户界面自动化的重大进步。通过集成这些工具,开发人员可以创建与图形用户界面无缝交互的复杂人工智能代理,为自动化和可访问性带来新的可能性。随着人工智能技术的不断发展,OmniParser V2 和 OmniTool 的潜在应用只会越来越多,从而塑造我们与数字界面交互的未来。 OmniParser V2通过准确解析和标注界面元素,增强了人工智能驱动的图形用户界面自动化。 OmniTool将 OmniParser V2 与领先的 LLM 集成,以实现完全自主的代理操作。 设置 OmniParser V2 和 OmniTool需要配置依赖关系、Docker 和虚拟化 Windows 环境。 实际应用包括用户界面自动化、无障碍解决方案和用户界面分析。 负责任的人工智能实践通过训练数据、监督和威胁建模来应对风险,从而确保符合道德规范的部署。 常见问题Q1. 什么是 OmniParser V2? A. OmniParser V2 是一款人工智能驱动的工具,可使用检测和字幕模型从图形用户界面中提取结构化数据。 Q2. OmniTool 如何增强人工智能驱动的图形用户界面自动化? A. OmniTool 将 OmniParser V2 与 LLM 集成,使人工智能代理能够自主地与图形用户界面元素进行交互。 Q3. 设置 OmniParser V2 的先决条件是什么? A. 您需要安装 Python、Conda 和必要的依赖项,以及 OmniParser 的模型权重。 Q4. OmniTool 如何利用虚拟化 Windows 环境? A. OmniTool 在 Dockerized Windows 虚拟机中运行,允许人工智能代理与 GUI 应用程序安全交互。 Q5. OmniParser V2 和 OmniTool 在现实世界中有哪些应用? A. 它们可用于用户界面自动化、无障碍解决方案和改进用户界面设计。
点赞微海报 分享 分享到 (责任编辑:) |