Liquid

Liquid是一款由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架。该框架利用VQGAN技术将图像转换为离散的视觉token，并与文本token共享同一词汇空间，从而使得大型语言模型（LLM）在视觉生成和理解任务中发挥作用，而无需对模型结构进行修改。

Liquid的主要功能包括视觉生成、视觉理解、多模态融合、高效扩展以及语言能力保留。通过Liquid，用户可以基于文本描述生成高质量图像，处理各种与图像相关的任务，同时支持文本生成、图像生成和视觉理解任务的无缝结合。Liquid的技术原理涉及图像分词器、统一的特征空间、基于LLM的生成、多模态数据训练以及双向促进机制等方面。

Liquid的项目地址包括官网、GitHub仓库、HuggingFace模型库、arXiv技术论文以及在线体验Demo等。Liquid的应用场景涵盖创意设计、内容创作、视觉问答、多模态对话以及VR/AR应用等领域。该框架在视觉生成与理解方面展示出色表现，具有广泛的实际应用前景。