微软发布 OmniParser V2.0：将屏幕截图转换为大型语言模型可用的结构化数据

全新发布的 OmniParser V2.0，是一款强大的工具，旨在简化用户界面（UI）元素的解析流程，以便高效地提取关键数据。它利用大型语言模型 (LLM) 的强大功能来理解 UI 的复杂性，从而实现对屏幕内容和组件信息的精确识别。

该技术的显著优势在于，它能够处理多种屏幕截图，从中提取有价值的信息，并支持对屏幕上元素的定位与理解。实际上，只需提供一张 UI 截图，即可快速准确地解析出所需的各种数据。这使得开发者能够轻松地从 UI 界面中提取信息，无需进行繁琐的手动操作。

在 V2.0 版本中，OmniParser 实现了显著的性能提升，数据解析的准确率提高了约 60%。在推理速度方面，该版本也表现出色，在 A100 GPU 上的运行速度达到 0.6 秒/帧，而在 4090 GPU 上则为 0.8 秒/帧。此外，OmniParser 在 ScreenSpot Pro 基准测试中取得了 39.6% 的优秀成绩。

值得一提的是，OmniTool 作为一个辅助工具，专门设计用于 Windows11 平台，并与 OmniParser 无缝集成，方便用户进行数据解析工作。OmniTool 不仅支持本地大型语言模型，还兼容 OpenAI、DeepSeek (R1)、Qwen (2.5VL) 和 Anthropic Computer Use 等多种模型，从而大大提高了数据处理的灵活性。

OmniParser 通过其卓越的性能和易用性，简化了从用户界面中提取结构化数据的过程，极大地促进了数据分析和自动化任务。它能够精确地识别和解析屏幕上的各种元素，无论是复杂的应用程序还是简单的网页，OmniParser 都能提供可靠的数据提取能力。利用此技术，可以更高效地完成各种任务，节省大量时间和精力。

总而言之，OmniParser 提供了一种高效且强大的解决方案，用于从各种应用程序和平台的用户界面中提取信息。它克服了传统方法在处理复杂 UI 时的局限性，提供了前所未有的灵活性和准确性。目前，在各种需要从屏幕数据中提取信息并进行处理的场景中，OmniParser 都能发挥关键作用，提升工作效率。

项目地址：https://huggingface.co/microsoft/OmniParser-v2.0

源码地址：https://github.com/microsoft/OmniParser/tree/master

总结：

📌 OmniParser V2.0 是一款强大的屏幕解析工具，能够从 UI 界面中高效提取数据，并辅助完成各种任务。

💡 新版本性能显著提升，推理速度更快，在 ScreenSpot Pro 基准测试中取得了 39.6% 的好成绩。

🧰 该工具能够准确识别屏幕上的元素，从而提升数据处理效率，适用于各种应用场景。