媲美AF3!百奥几何发布新一代抗体设计生成式AI大模型GeoFlow

近日,由 Google DeepMind 和 Isomorphic Labs 等团队开发的 AlphaFold 3 登上 Nature,引发了业界广泛关注。

与上一代方法相比,AlphaFold 3 将预测的范围扩充到了几乎所有的生命分子以及它们之间的相互作用,是生成式 AI在生命科学领域的又一重要里程碑。其模型的最大创新点之一,是用上了大火的生成式 AI 模型——扩散模型(AlphaFold 2 为判别式 AI 模型)直接生成每个原子的 3D 坐标。

今天,我们与大家分享百奥几何在大分子设计领域的最新进展。基于几何深度学习 (Geometric Deep Learning) 基础模型和最新的流匹配生成模型 (Flow Matching) [1],百奥几何研发了新一代抗体设计生成式AI模型 GeoFlow,能够同时用于抗原-抗体复合物结构预测抗体从头设计。在抗原-抗体复合物结构预测任务上,GeoFlow 的效果达到了与AlphaFold 3 相近的水平

生成式 AI 引领下一代大分子设计

如果说传统的判别式 AI 是乐评人,可以对一首歌的节奏、风格、编曲进行识别和评价,那么生成式 AI 就是歌手,可以创作出新的作品。

从评价数据到生成数据,AI 的应用场景得到了极大的拓展。例如,在结构预测场景中,生成式 AI 能更快地采样到更多的构象;在蛋白设计场景中,生成式 AI 能更高效地探索蛋白空间,设计具有预期功能的复杂蛋白分子。

作为生成式 AI 在大分子领域应用的先行者,百奥几何在扩散模型(diffusion model,建模从噪声到分布的过程)、流匹配(flow matching,建模从分布到分布的过程)等生成式 AI 技术方面有着深厚的积累。

扩散生成模型早期主要用于图像生成(近期也被用于三维视频的生成,如 Sora)。百奥几何的核心团队早在 2021 年就将扩散模型用于分子的三维结构生成 [2,3],是最早将扩散模型用于分子结构建模的团队。其中关键论文 GeoDiff 是2022 年 AI 领域引用量排名前 50 的论文之一 [4]。

基于这些前期技术的积累,百奥几何研发了最新的生成式AI抗体设计大模型 GeoFlow。GeoFlow 模型基于几何深度学习架构和最新的流匹配生成模型(flow matching),能够同时用于抗原-抗体复合物结构预测抗体设计两项关键任务。在原子层面对抗原-抗体相互作用力进行建模是这两项任务的核心难点。与现有的 Transformer 架构不同,GeoFlow 采用了几何深度学习基础模型,能够更好地在三维空间上对原子-原子之间的关系进行建模。在生成模型选择上,GeoFlow 采用了最新的流匹配模型。与扩散生成模型相比,流匹配生成模型的训练和推理更高效,也更鲁棒。

GeoFlow模型架构图。GeoFlow既可以用于抗原-抗体复合物结构预测(输入抗原结构/序列以及完整的抗体序列,模型生成抗原-抗体复合物结构),也可以用于抗体设计(输入抗原结构和抗体序列,待设计CDR区域以掩码表示,模型生成复合物结构以及CDR区域序列)

媲美AlphaFold 3的抗原抗体复合物结构预测能力

对于 GeoFlow 的性能,我们在抗原-抗体复合物结构预测任务上进行了测评。抗原-抗体复合物结构预测在抗体药物的发现中扮演着至关重要的角色。然而,无论是基于能量函数的传统方法(如 HDock 和 MOE),还是基于深度学习的预测模型(如 AlphaFold 2 Multimer),准确度目前都不太理想。

在由66个抗原-抗体复合物结构(2023 年后发布的)构成的测试集上,我们模型的 Top-1 成功率(模型打分最高结构的 DockQ 水平为“Acceptable”以上则视为成功)达到了 43.9%,与 AF3 持平,大约是 AF2 Multimer 的两倍。传统的分子对接方法尽管也能生成多个可能的结构,但打分准确率较低,实际应用的价值相当有限。

抗原-抗体复合物预测评测结果
PDB 8BLQ 各模型预测结果对比
PDB 8DOK 各模型预测结果对比

抗体从头生成与验证

与 AF3 相比,GeoFlow 不仅能够用于抗原-抗体复合物结构预测,还能够用于抗体的从头设计和优化。 对于传统 AI方法来说,大分子从头设计非常困难。主要原因是难以快速采样高质量的样本,只能通过判别模型从浩瀚的分子空间中评估大量低质量样本,这个过程如同大海捞针。

生成式 AI 的出现为大分子设计带来了革命性的机遇,给定抗原结构和特定表位,GeoFlow 能够生成全新的抗体分子。

基于GeoFlow的抗体从头生成示意图

以 HER2 靶点为例,基于上市的抗体药物 Herceptin 的结合表位,我们利用 GeoFlow 生成了一个小的抗体库,然后再利用噬菌体库进行筛选。在得到的十条候选序列中,

  • 结合活性:6 个分子在 ELISA 实验中结合与 Herceptin 相当,达到纳摩尔水平,且 BLI 的结果显示 1 号和 3 号分子的亲和力相比 Herceptin 甚至有 2-3 倍的提升
  • 结合表位:竞争 ELISA 显示这 6 个分子的结合与 Herceptin 存在强竞争,推断其结合表位与 Herceptin 一致

上述结果展现了生成式 AI 在大分子从头设计领域的广阔应用前景。作为数智生物的先行者,百奥几何正向更大的设计区域、更难的靶点、更高的亲和力发起冲击。

百奥几何开放模型非商用测试

百奥几何的生成式 AI 大模型,已经覆盖了大分子设计、筛选和改造的各个环节,并通过 GeoBiologics 一站式抗体发现平台,为合作伙伴带去了实实在在的效益。

为了让生成式AI赋能更多用户,我们将开放GeoFlow模型,用于抗原-抗体复合物结构预测的非商用测试。只需登陆geobiologics-lite.biogeom.com,验证邮箱后即可体验。每周支持预测八个复合物,每个任务输入支持 1150 个氨基酸哦~

展望未来,百奥几何将继续用前沿的生成式 AI 算法,深耕生物医药和合成生物学行业,与合作伙伴携手共建更绿色、更智能、更健康的美丽世界。

参考链接

[1] Lipman, Yaron, et al. “Flow matching for generative modeling.” 11th International Conference on Learning Representations (ICLR 2023)
[2] Shi C, Luo S, et al. “Learning gradient fields for molecular conformation generation.” 38th International Conference on Machine Learning (ICML 2021)
[3] Xu M, et al. “Geodiff: A geometric diffusion model for molecular conformation generation.” 10th International Conference on Learning Representations (ICLR 2022)
[4] https://www.zeta-alpha.com/post/must-read-the-100-most-cited-ai-papers-in-2022
[5] Abramson, Josh, et al. “Accurate structure prediction of biomolecular interactions with AlphaFold 3.” Nature (2024): 1-3.