Midjourney最新研究：助力LLM写作创新的文本生成技术

标签：AI图像生成 AI硬件 Midjourney 文本生成大语言模型(LLMs)

摘要：

Midjourney作为一家以AI图像生成技术著称的公司，最近与纽约大学（NYU）的机器学习专家合作，发布了一 […]

Midjourney作为一家以AI图像生成技术著称的公司，最近与纽约大学（NYU）的机器学习专家合作，发布了一项关于训练文本生成大语言模型（LLMs）的最新研究成果。这项研究旨在提升LLM在创意写作方面的能力，使其能够像Meta的Llama和Mistral等开源模型一样，产生更具创造性的文本。

对于Midjourney而言，这一在文本生成领域的创新尝试意味着公司追求的目标并不仅限于视觉内容。他们试图改变人们传统观念中“一图胜千言”的想法，认为文本的创意潜力同样值得深入挖掘。通过这次研究，Midjourney正在向外界展示他们在人工智能领域的多元化探索。

这项研究提出了两种名为“多样化直接偏好优化”（DDPO）和“多样化赔率比偏好优化”（DORPO）的新技术。这两种技术旨在扩大AI模型生成文本的范围，使其在保持连贯性和可读性的前提下呈现更加丰富多样的内容。当前的LLMs通常在事实性问答或代码辅助等领域表现出色，但在创意写作领域存在一定局限性，容易收敛于相似的故事线和主题。这一问题正是新技术希望解决的。

为了克服这些挑战，Midjourney的研究团队改进了现有的偏好优化方法，引入了DDPO和DORPO，利用“偏差”来指导模型训练，鼓励模型学习从更多样化的例子中产出更高质量且更具差异性的回应，使其不受限于单一结构和主题。通过在Reddit社区的数据集上对LLMs进行训练和评估，他们验证了新方法的有效性，发现DDPO能够在保持输出质量的同时，增加回应的多样性。这种方法有望在营销、创意文案和影视剧本等领域赋能企业，提升AI生成内容的多样性和质量。的重要性，以减少部署后的后处理调整需求。它还提供了一种引入自适应叙事的方法，确保内容的可变性同时保持高质量。此外，该方法有助于使LLM的输出更接近人类表现，这对于需要互动叙事、客户互动或动态内容创建的应用至关重要。

Midjourney的研究展示了以多样性为目标训练LLM在创意写作方面取得的显著进展。未来，将偏差学习方法整合到企业AI模型中，可以增强面向客户的应用中的响应多样性，进一步探索这些方法在其他生成任务中的应用，如诗歌、剧本创作或游戏故事等，并发展平衡多样性与指令遵循能力的混合训练方法，都将是值得期待的研究方向。

Midjourney的研究团队计划公开其代码，这将为希望应用这些技术的开发者提供宝贵资源。通过采用这些创新技术，AI团队有望打破僵化、公式化的输出模式，构建出既智能又富有想象力的AI系统。