哈佛、哥伦比亚大学开源1600万蛋白质序列数据集，攻克AlphaFold2训练数据限制

摘要：

哈佛大学和哥伦比亚大学等研究机构推出了名为OpenProteinSet的开源数据集，包含1600万个蛋白质多序 […]

哈佛、哥伦比亚大学开源1600万蛋白质序列数据集，攻克AlphaFold2训练数据限制的封面图

哈佛大学和哥伦比亚大学等研究机构推出了名为OpenProteinSet的开源数据集，包含1600万个蛋白质多序列对齐（MSA）及相关数据。这个数据集的发布解决了DeepMind的AlphaFold 2训练数据私有化的问题，为生物信息学和蛋白质机器学习领域提供了重要支持。AlphaFold 2在蛋白质结构预测的准确性上引领了该领域，但其私有数据限制了其他研究者的进展。OpenProteinSet包含了所有蛋白质数据库的蛋白质和各种UniProt集群的数据，可用于广泛的AI模型训练。这个资源对于研究生物学、药物研发等领域具有重要意义，将推动相关研究的发展。

文章版权归作者所有，未经允许请勿转载。

本文地址：https://aidh.net/kuaixun/d14al8c4