

药物开发过程既复杂又昂贵,伴随着高失败率和漫长的时间周期。传统的药物发现方法需要经历从靶点识别到临床试验的一系列实验验证,耗时耗力。然而,随着计算方法的兴起,尤其是机器学习和预测建模技术的发展,这一过程有望得到优化。
谷歌AI推出了TxGemma,这是专为药物开发中各种治疗任务设计的通用大规模语言模型系列。TxGemma与众不同之处在于,它整合了来自不同领域的数据集,包括小分子、蛋白质、核酸、疾病和细胞系,涵盖了治疗开发流程的多个阶段。该系列模型提供了2亿、9亿和27亿参数的不同选择,均基于Gemmma-2架构在全面的治疗数据集上微调而成。此外,TxGemma还包含一个交互式的对话模型TxGemma-Chat,科学家可以通过它进行详细的讨论和机制解释,提升了模型的透明度。
从技术角度来看,TxGemma利用了治疗数据共同体(TDC),这是一个包含6600万数据点的综合数据集。TxGemma-Predict作为该系列中的预测变体,在这些数据集上表现出色,其性能与当前在治疗建模中使用的通用模型和专业模型相当甚至更优。TxGemma的微调方法在数据稀缺领域具有重要优势,因为它能够在少量训练样本下提高预测准确性。
TxGemma在临床试验的不良事件预测中显示出其实用性,这是治疗安全性评估中至关重要的一环。TxGemma-27B-Predict表现出卓越的预测性能,且所使用的训练样本远少于传统模型,显示了其在数据效率和可靠性方面的优势。此外,TxGemma的推理速度也支持实时应用,尤其在虚拟筛选等场景中,模型的27亿参数版本能够高效处理大规模样本。
谷歌AI推出的TxGemma代表了计算治疗研究的重要进展,结合了预测性能、互动推理和数据效率。通过公开TxGemma,谷歌为进一步验证和适应多种专有数据集开辟了途径,推动了治疗研究的更广泛应用和可重复性。【图片占位符】
模型链接:https://huggingface.co/collections/google/txgemma-release-67dd92e931c857d15e4d1e87
提示:
- TxGemma是旨在优化药物开发中的多个治疗任务的通用大规模语言模型系列。
- 该模型整合了广泛的数据集,在临床试验的不良事件预测中表现优异。
- TxGemma的推理速度支持实时应用,为药物开发提供了强大的计算支持。