

近日,由 Rhymes AI 推出的新一代 AI 模型 Aria 引起了广泛关注。它被誉为高性能的生成式人工智能,尤其擅长多专家混合(MoE)架构。据官方介绍,该模型融合了多种先进技术,在多种任务中展现出卓越的性能,堪称一款强大的通用人工智能。
Aria 的主要优势在于它能够熟练地运用语言、理解代码、生成图像及执行复杂的推理任务。它融合了 Transformer 模型与 MoE 架构的优势,从而实现了模型容量和计算效率的平衡。在处理复杂任务时,各个专家模块协同工作,确保模型能够高效地学习和泛化,进而提升整体性能。
Aria 的训练数据包含超过 35 亿个参数,其中活跃参数达到 249 亿个。为了实现卓越的性能,Aria 采用了高质量的训练数据集,包括 4.38 亿个参数的精选数据集,涵盖代码、数学及常识推理等多个领域。得益于如此庞大的数据量,Aria 能够处理 64,000 个 token 的上下文窗口,从而实现对长文本的有效理解。
总而言之,Rhymes AI 在构建通用人工智能方面取得了显著进展,其模型性能和功能令人印象深刻。
在技术层面,Aria 利用了 6.4 万亿个 token 的语料库以及 4000 亿个参数的模型进行了训练,数据来源包括 Common Crawl 和 LAION 数据集,保证了模型学习到丰富的知识。
值得一提的是,Aria 在单个模型中,结合了 Pixtral-12B 和 Llama-3.2-11B 等模型的能力,从而实现了卓越的性能。
此外,Aria 在多种评估基准上表现出色,甚至在某些方面超越了 GPT-4o mini 和 Gemini1.5Flash 等领先模型。
目前,Rhymes AI 已经将 Aria 的模型权重以 Apache2.0 协议开源在 GitHub 上,方便研究人员和开发者使用。值得关注的是,Aria 能够在消费级 GPU 上进行推理和微调,这归功于 Rhymes AI 对 AMD 硬件的优化。他们正与 AMD 合作,共同开发 BeaGo 编译器,旨在提升 AMD 硬件上的性能,从而加速人工智能应用的发展。
核心要点:
💡 Aria 是一款基于多专家混合架构的高性能 AI 模型。
✨ Aria 在语言理解、代码生成、图像生成及推理任务等方面表现出色,可以与现有先进模型相媲美。
🧠 Rhymes AI 与 AMD 合作,通过 BeaGo 编译器优化 AMD 硬件,从而提升 AI 应用的性能。