Android Studio整合Gemini新增多模态功能，开发者可上传图片获取UI代码

标签：AndroidStudio Gemini助手 JetpackCompose 多模态输入

摘要：

谷歌近日宣布，Android Studio中的Gemini助手已升级，新增支持多模态输入功能。开发者现在可以直 […]

谷歌近日宣布，Android Studio中的Gemini助手已升级，新增支持多模态输入功能。开发者现在可以直接将图像附加至提示中，从而在应用程序开发过程中获得视觉辅助。

Android Studio整合Gemini新增多模态功能，开发者可上传图片获取UI代码

这一多模态功能首次亮相于I/O 2024大会。升级后的Gemini能够“理解简单的线框，并将其转化为可用的Jetpack Compose代码”。在Android Studio Narwal的Canary版本中，Ask Gemini字段新增了“附加图像文件”的选项，支持JPEG和PNG格式。谷歌建议用户使用“具有强烈色彩对比”的图像，并提供“清晰的提示”，以期获得最佳效果。

开发者可以上传各种类型的屏幕截图和用户界面，从简单的线框图到高保真模型，并能够指定预期的功能。例如，在进行计算器设计时，可要求“确保交互和计算按预期工作”。

将视觉设计转换为功能性UI代码的典型提示包括以下两条：1.“根据提供的图像，编写Android Jetpack Compose代码，制作尽可能接近该图像的屏幕。确保包含导入、使用Material3，并记录代码。” 2.“针对提供的这张图片，编写Android Jetpack Compose代码，尽可能还原该图像，在颜色上进行创意处理。确保交互与计算按预期进行，并包含所有必要的导入、使用Material3并记录代码。”

谷歌将Gemini定位为生成“初始设计框架”的工具，所生成的代码通常需要进一步的编辑和调整。常见的改进包括确保正确导入可绘制对象和图标。谷歌建议将生成的代码视作高效的起点，以此加速UI开发的工作流程。

此外，Gemini的视觉分析功能也可用于识别和解决错误。开发者可以上传有问题的UI屏幕截图，Gemini将分析该图像并提出潜在的解决方案。同时，开发者还可以附加相关的代码片段，以获得更精准的帮助。

Android Studio中的Gemini也支持上传架构图，并获得解释或文档，这一功能与此前在I/O大会上展示的Gemini Astra眼镜功能相似。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/56j37ki0

Android Studio整合Gemini新增多模态功能，开发者可上传图片获取UI代码

北京新增34款已登记生成式AI服务，包括小米AI搜索和Monica在内。

挑战传统：一项无归一化层的新Transformer架构突破

暂无评论

OpenAI推出ChatGPT Pro，每月200美元畅享o1完整版与Pro版功能

百度文心一言4月1日起全面免费，同步推出深度搜索功能

热门AI工具

AI快讯

历史AI快讯回顾

Android Studio整合Gemini新增多模态功能，开发者可上传图片获取UI代码

北京新增34款已登记生成式AI服务，包括小米AI搜索和Monica在内。

挑战传统：一项无归一化层的新Transformer架构突破

暂无评论

OpenAI推出ChatGPT Pro，每月200美元畅享o1完整版与Pro版功能

百度文心一言4月1日起全面免费，同步推出深度搜索功能

热门AI工具

AI快讯

标签云

历史AI快讯回顾