

近日,Arc Institute 与 NVIDIA 合作,共同推出了用于大规模语言模型、基因组学和蛋白质组学研究的全新基础模型——Evo2。该模型经过超过 128,000 个序列的数据训练,在 9.3 亿参数的基础上,能够支持更大的生物学 AI 模型训练。
Evo2 的发布旨在帮助研究人员更有效地探索和理解复杂的生物学数据,从而加速科学发现。该模型能够更准确地预测蛋白质的结构,从而有可能发现新的药物靶点和治疗方法。Evo2 将于 2025 年 2 月 19 日向公众开放使用,届时研究人员可以通过 Evo Designer 平台访问。Evo2 的代码已在 Arc 的 GitHub 页面上开源,并且可以集成到 NVIDIA 的 BioNeMo 框架中,进一步促进生物学领域的研究。
与之前的模型 Evo1 相比,Evo2 在数据质量上有了显著提升,能够处理结构化、非结构化以及多模态的数据。研究人员表示,Evo2 的目标是能够像 “阅读、理解和设计” 生物学一样,为生物学研究提供更强大的支持。
在技术层面,Evo2 可以在 NVIDIA DGX Cloud AI 基础设施上运行,利用超过 2000 个 NVIDIA H100 GPU,模型训练速度比上一代提升了 100 倍,从而大大缩短了模型开发的时间。其中,AI 模型 “StripedHyena2” 在 Evo2 上的训练速度比 Evo1 快了 30 倍。
Evo2 的发布对生物医学领域具有重要意义,它能够帮助研究人员更深入地了解生物系统的复杂性,并加速相关领域的创新。例如,在癌症研究中,Evo2 可以帮助预测 BRCA1 基因的突变影响,其准确率高达 90%。此外,该模型还可以用于加速抗体发现和药物开发过程,为疾病治疗提供新的思路。
总而言之,Evo2 的出现有望推动生物学研究进入一个全新的阶段。它能够帮助研究人员更有效地利用生物数据中蕴含的信息,从而加速科学发现,并最终改善人类健康。这种模型适用于通过 Evo2 的数据来训练自己的 AI 模型,从而为生物学和相关领域创造更大的价值。
在未来发展和潜在应用方面,研究人员希望 Evo2 的能力能够不断扩展,从而服务于更多的科研人员,并推动生物学领域的进步。
Evo2 相关信息:https://arcinstitute.org/news/blog/evo2
简要概括:
🌱 Evo2 是用于更大规模的生物学 AI 模型,其训练的数据超过 128,000 个序列。
🔍 该模型旨在帮助研究人员更有效地探索生物数据,并加速科学发现。
💡 Evo2 有潜力通过加速 AI 模型的训练来改变生物学领域。