

为了更好地理解图像内容,高质量的图形用户界面(GUI)数据变得至关重要。然而,创建大量带有标注的数据集是一项非常具有挑战性的任务。通常,难以获取足够数量的真实场景,并且手动添加标签既耗时又昂贵。考虑到以上问题,自动生成带有标注的合成数据是一个比较理想的解决方案。
通常,图形用户界面数据生成面临的挑战之一是如何创建视觉上与真实数据相似,同时又能覆盖各种不同类型和布局的元素,从而确保模型的泛化能力。当前,用于合成数据集的生成方法往往难以模拟真实场景中的复杂性和多样性,这就限制了它们在实际应用中的有效性。为此,我们需要一种能够生成更逼真、更多样化的图形用户界面合成数据,并且确保数据质量和实用性的方法。
针对这些挑战,我们推出了一款名为 ScreenSpot-Pro 的工具,旨在帮助研究人员和开发人员更轻松地创建高质量的合成数据,它是专门为提升在各种视觉任务中的模型表现而设计的。与现有工具相比,ScreenSpot-Pro 在合成数据的质量和多样性方面都有显著的改进。这款工具可以用于增强和扩展现有数据集,以此来改进和优化用于界面设计的相关模型,并促进该领域的发展。
在技术层面,ScreenSpot 的主要创新之处在于,它能够模拟真实世界的数据特征,适用于各种计算机视觉任务,包括但不限于:目标检测、关键点定位和语义分割。通过整合先进的渲染技术和精细的控制参数,生成既逼真又具有多样性的数据,从而显著提高模型在实际应用中的性能。ScreenSpot-Pro 使得非专业用户也能轻松生成高质量的合成数据,扩展了数据集的规模,提高了模型的训练效率。
实验结果表明,使用 ScreenSpot-Pro 能够显著提升图形用户界面数据的相关任务性能,并在通用计算机视觉基准测试中表现出色。与 OS-Atlas-7B 模型相比,使用 ScreenSpot-Pro 生成的数据能将准确率提升高达 18.9%。此外,通过结合真实数据和使用 ReGround 技术增强的数据,我们观察到准确率进一步提升,达到了 40.2%。在具体应用方面,这些提升转化为更准确的界面元素识别,增强的用户交互体验,以及更高效的自动化流程。这些结果验证了该方法在提升模型泛化能力和处理实际复杂场景方面的有效性。
总的来说,ScreenSpot-Pro 为图形用户界面(GUI)领域的视觉任务提供了一种高效的数据增强方法,它不仅提高了模型的准确性和鲁棒性,还降低了数据获取和标注的成本。该工具通过其独特的技术优势,为未来界面设计和应用开发提供了强大的支持。
论文地址:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf
数据集地址:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro
重点总结:
✨ 核心价值:提供高质量的图形用户界面数据,支持各种视觉相关的任务,并提高模型的泛化能力。
⚙️ ScreenSpot-Pro 数据集:包含1,581张图片,覆盖23个常见的图形用户界面类别,并提供详细的标注信息。
📊 性能提升:结合 ReGround 数据增强技术,显著提升 GUI 相关任务的性能。