

基于大型语言模型(LLM)的图像生成技术取得了显著进展,但其高效性和可控性仍面临挑战。
现有图像生成方法通常依赖于庞大的模型和大量的计算资源,这限制了其在资源受限环境下的应用。此外,精确控制生成图像的细节和风格也较为困难,难以满足多样化的需求。
为了解决这些问题,我们提出了一种名为Liquid的新型图像生成方法。该方法巧妙地结合了VQGAN的矢量量化技术和LLM的强大能力,实现了高效且可控的图像生成。
Liquid利用LLM强大的文本理解能力,将用户的文本描述转化为精细的图像控制指令。同时,它采用高效的VQGAN编码器和解码器,将这些指令转化为高质量的图像像素,并对图像细节进行细致调整。
与传统的LLM图像生成方法相比,Liquid在参数量和计算资源方面显著减少,运行速度大幅提升,同时保持了生成图像的高质量和可控性。例如,它可以利用0.5B到32B参数量的LLM进行高效图像生成,展现出不同参数规模下出色的性能。
更重要的是,Liquid在图像生成过程中对token进行了优化管理,有效降低了token数量,并提高了生成效率,从而减少了生成时间和资源消耗,使得“实时”图像生成成为可能。
总而言之,Liquid为高效且可控的图像生成提供了一种新的解决方案,它在参数效率、生成速度和图像质量上取得了显著的突破。该方法具有广泛的应用前景,例如在移动端或低功耗设备上的图像生成,以及需要实时图像生成的应用场景。
值得关注的是,Liquid的创新之处在于其巧妙地结合了LLM和VQGAN,在保证生成质量的同时,大幅降低了计算成本。同时,它通过优化token管理,实现了更快的生成速度,为实时图像生成提供了可能。
Liquid的模型参数和代码已公开发布:https://arxiv.org/pdf/2412.04332