ControlMM：多模态输入（文字、语音、音乐）驱动全身动作生成

1年前发布AI俱乐部

8 0 0

标签：ControlMM 全身动作生成腾讯香港中文大学

将文本翻译成其他语言并进行动作模仿是ControlMM的目标，它能够利用身体姿态信息来控制生成过程，从而可以编辑文本、进行润色，以及实现姿势驱动等功能。

项目地址：https://top.aibase.com/tool/controlmm

ControlMM的优势在于它能够同时处理文本和姿态信息，使其在文本到动作的生成任务中表现出色。该方法无需依赖于大量成对的数据，便能够学习到有效的控制策略。此外，它还能生成符合要求的动作，即使这些动作在训练数据中并不常见，也能够实现。

其核心在于，能够对不同的身体部位施加不同的控制。值得注意的是ControlMM-Attn模型，该模型通过引入时间和空间注意力机制，来提升生成动作的质量，保证生成的动作更具真实感和自然性。

具体而言，ControlMM提供了一种模块化的控制框架，允许用户通过指定第一帧的姿势作为参考，来控制整体动作的生成，或者通过指定第二帧的关键姿势来引导动作的演变。

此外，该项目还发布了一个名为ControlMM-Bench的评估工具，用于评估基于SMPL-X身体模型的动作生成任务的性能。

总的来说，ControlMM在跨模态动作生成领域具有重要意义，它不仅可以应用于文本到动作、语音到手势，甚至音乐到舞蹈等任务，还能在虚拟现实、游戏以及人机交互等多个领域发挥作用。

ControlMM亮点总结：

1. 姿态控制 :ControlMM支持利用身体姿态信息，如关键帧或特定姿势，来指导动作生成，从而实现对生成过程的精准控制。

2. 模块化设计 :ControlMM 采用模块化设计，简化了动作生成流程，提高了生成效率。

3. 细粒度控制 :该方法支持对不同身体部位进行细粒度控制，可以根据需要调整特定部位的动作，从而实现更精细的动作编辑。

4. 注意力机制 :ControlMM-Attn 通过引入时间和空间注意力机制，能够更好地捕捉动作的动态特征，提高生成动作的真实性和自然度。

5. 基准测试 :项目方发布了 ControlMM-Bench，用于评估基于 SMPL-X 身体模型的动作生成任务，促进了该领域的研究和发展，便于比较不同算法的性能。

6. 广泛的应用场景 :ControlMM 在姿态驱动的动作生成方面表现出色，其应用范围广泛，涵盖了人机交互、游戏以及虚拟现实等领域。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/jd4106i6

暂无评论

暂无评论...

ControlMM：多模态输入（文字、语音、音乐）驱动全身动作生成

小米14、Redmi K70等机型将迎来澎湃OS全AI功能升级，包括小爱输入助手、AI搜图等。

OpenAI联合创始人约翰·舒尔曼跳槽至人工智能初创公司Anthropic

暂无评论

前微软视觉专家胡瀚加入腾讯，领衔混元多模态大模型研发

迈瑞医疗携手腾讯发布启元重症领域AI大模型

前微软视觉专家胡瀚加入腾讯，领衔多模态大模型研发

腾讯电子签即将推出AI合同起草功能，该功能将整合混元、DeepSeek等多个AI大模型。

腾讯朱雀大模型推出AI鉴别工具，可检测图片、文章是否为AI生成

腾讯联手高校重磅发布：GameGen-O，AI驱动游戏元素高效高质量生成！

智谱 AI 完成 B+ 轮融资，腾讯、阿里领投

微信公众号低调推出“AI配图”功能，由腾讯混元大模型驱动

热门AI工具

AI快讯

历史AI快讯回顾

ControlMM：多模态输入（文字、语音、音乐）驱动全身动作生成

小米14、Redmi K70等机型将迎来澎湃OS全AI功能升级，包括小爱输入助手、AI搜图等。

OpenAI联合创始人约翰·舒尔曼跳槽至人工智能初创公司Anthropic

热门AI工具

AI快讯

标签云

历史AI快讯回顾