齿轮啮合诗人
「两个几乎一模一样的分子,一个药效惊人,一个却毫无活性。」这是药物发现中最让 AI「抓狂」的谜团 ——Activity Cliffs(活性悬崖),它是结构 - 活性映射中最难缠的一类现象:微小的结构修改,带来巨大而难以预测的活性差异。
为了解决这一问题,北大团队提出了首个靶标蛋白感知的「活性悬崖」通用预测框架 MTPNet(Multi-Grained Target Perception Network),首次引入 「多粒度靶标语义感知机制」将靶标蛋白的宏观特征与结合位点的微观特征相结合,统一建模各类「受体 - 配体」相互作用网络,在 30 个活性悬崖数据集上取得了显著性能提升,展现出理想的泛化能力与可解释性。
相关论文以「MTPNet: Multi-Grained Target Perception for Unified Activity Cliff Prediction」为题发布,已被 IJCAI 2025 录用。
论文地址:https://arxiv.org/pdf/2506.05427
开源地址:https://github.com/ZishanShu/MTPNet
1、为什么需要引入靶标蛋白作为条件信息?
以往的预测模型大多仅仅聚焦于分子自身的结构或化学特征,试图通过比较诸如分子指纹或图结构的差异来解释和预测活性变化。然而,这类方法往往忽视了导致活性突变的深层「根源」—— 即蛋白受体与其配体分子在结合过程中的关键作用。实际上,配体与受体之间的复杂相互作用网络,才是活性显著变化乃至活性悬崖产生的本质驱动力之一。
图 1:MTPNet 的动机和方法论
为此,研究团队提出了 MTPNet,其核心理念在于:并非所有分子之间的结构或理化差异都会直接导致活性悬崖的发生,而是只有当这些差异恰好集中于受体(靶标蛋白)的敏感识别区域,干扰关键结合模式或诱导显著构象变化时,才可能引发「断崖式」的活性波动。因此,MTPNet 通过将分子表征与受体特征深度融合,并在多粒度层面建模分子差异对特定受体结合位点的影响,能够更准确地识别和解释那些由微小结构修饰引起的大幅度活性突变。
2、MTPNet:多粒度靶标感知通用预测架构
为了在「受体级别」和「结合位点级别」两个粒度上渐进式建模靶标蛋白与配体分子的相互作用网络,MTPNet 提出了 MTP(Multi-Grained Target Perception)模块,由 MTS(Macro-level Target Semantic)和 MPS(Micro-level Pocket Semantic)条件网络组成。
宏观靶标条件网络 MTS 使用预训练蛋白模型提取靶标蛋白序列嵌入,生成动态归一化参数调制分子的特征分布,借助条件层归一化和自注意力机制引导分子特征与靶标蛋白语义对齐;微观口袋条件网络 MPS 从靶标蛋白结构中提取结合口袋区域(Pocket)并通过交叉注意力机制捕捉局部交互关系。
最终,MTPNet 通过层层迭代融合「整体靶标蛋白」和「局部口袋」引导信息,实现精细化「崖变感知」建模。图 2:MTPNet 的架构设计
3、预测性能的全面提升
为了全面评估 MTPNet 在活性悬崖任务中的性能,团队在公开基准 MoleculeACE 上进行了系统性测试。
该测评基准由 Van Tilborg 等人提出,专为评估分子结构微变所导致的活性巨变而设计,覆盖了对应不同蛋白靶标的 30 个高质量活性悬崖子集,涵盖超过 35,000 个分子样本,且多数子集样本量不足 1000,极具挑战性,尤其适合评估模型在小样本、强扰动场景下的泛化能力。
在该基准下,MTPNet 展现出卓越的预测性能:平均 RMSE 降低 18.95%,PCC 提升 11.6%,R2 提升 17.8%。图 3:MTPNet 的预测性能
除了在回归任务中取得显著优势,MTPNet 在活性悬崖分类任务中的表现也同样出色。团队在 CYP3A4 数据集(来源于 Veith et al., 2009)上进行了评估。该数据集包含 3,626 个已知活性分子(inhibitors/substrates)和 5,496 个无活性分子(inactive compounds)。
结果显示,MTPNet 在分类任务中取得了高达 0.924 的 AUC 指标,超越当前多个 SOTA 模型(如 Mole-BERT:0.902,MolCLR:0.896),进一步证明了 MTPNet 在各类任务场景中的预测能力和泛化能力。
4、MTP 模块即插即用实验
团队进一步测试了将 MTP 模块作为插件的即插即用效果,在 GCN、GAT、GIN、MolCLR、Mole-BERT 等基线模型上进行了广泛测试。
结果表明将 MTP 模块插入后基线模型的预测性能大幅提升,所有模型的 RMSE 指标均实现超过 15% 的改善,并且显著超越参数规模 scale-up 后的基线模型的性能,展现出 MTP 模块的普适性和兼容性。图 4:MTP 模块的即插即用效果
5、MTPNet 框架的可解释性
团队进一步观察了 MTPNet 框架对于相互作用机制的捕获和理解,发现模型对氨基(–NH₂)、羰基(C=O)、磺酰基(O=S=O)、羧基(–COOH)、卤素基团等关键官能团,以及双键、三键等特定化学键赋予了显著的注意力权重。并且,模型倾向于将更多注意力分配给官能团而非化学键,这与化学领域「官能团对分子性质和反应性起主导作用」的基本原理一致,体现了较强的可解释性。总的来说,MTPNet 不仅能准确识别影响分子活性的重要区域,还能反映官能团和化学键对溶解性、疏水性、亲和力等分子行为的影响。图 5:MTPNet 的可解释性
6、总结与展望
MTPNet 将受体蛋白作为条件信息显式引入建模流程,实现了通用的分子活性悬崖预测,未来可广泛应用于药物研发、分子优化和化学机制研究等领域。它能够帮助研究人员识别微小结构修饰对分子活性产生巨大影响的关键官能团和化学键,提升先导化合物和命中化合物的筛选、优化效率,减少试错成本。
同时,MTPNet 的高可解释性有助于揭示蛋白–配体结合的分子机制,指导理性药物设计,探索活性悬崖的成因,未来可扩展用于毒性预测、构效关系建模以及复杂受体–配体相互作用规律的深入研究。