Retrosynthesis prediction with an interpretable deep-learning framework based on molecular assembly tasks
尽管现有的逆合成方法在加速数据驱动的逆合成预测方面取得了显著进展,但它们仍然存在以下主要问题:
(1)基于序列的方法会丢失有关分子的先验信息。同时,基于图的方法忽略了序列信息和远程特征。这两种方法都受到特征表示学习的限制,限制了性能的进一步提高。
(2)许多现有的基于深度学习的逆合成方法面临可解释性差的问题。
(3)大多数现有方法侧重于单步逆合成预测,该预测能够生成看似合理的反应物,但可能无法购买,并且通常伴随着繁琐的人工选择预测过程。因此,从产物到可及反应物的路径规划的多步逆合成预测对于实际化学合成中的实验研究人员来说更有意义。
基于此,研究人员提出了 RetroExplainer,一种化学知识和深度学习引导的分子组装方法,用于具有定量解释性的逆合成预测。为了获得稳健且信息丰富的分子表示,提出了用于广义分子表示学习的多含义多尺度图 Transformer(MSMS-GT)、用于平衡多目标优化的动态自适应多任务学习(DAMT)以及用于分子结构信息捕获的结构感知对比学习(SACL)。该方法的总体框架如图 1 所示:
图 1. a. RetroExplainer 的流程。整个过程划分为四个不同的阶段:(1) 分子图编码;(2) 多任务学习;(3)决策;(4) 预测或多步路径规划。
b. 多感知和多尺度图Transformer(MSMS-GT)编码器和逆合成评分函数的架构。作者考虑将多语义的化学键嵌入与局部和全局感受野整合在一起,在自注意力执行阶段将它们作为注意力机制的偏差项混合在一起。在获得共享特征后,采用了三个不同的模块来评估五个逆合成事件的概率。这些模块包括:反应中心预测器(RCP),其中包括一个键变化预测器(RCP-B)和一个氢变化评估器(RCP-H);离去基团匹配器(LGM),并使用额外的对比学习策略进行增强;以及离去基团连接器(LGC)。
c. 动态自适应多任务学习(DAMT)算法。
d. 作者设计的透明决策过程。该过程分为六个阶段,由五个能量评估器进行评估,得出能量分数。
为了简化比较,仅选择现有方法中表现最好的 2 个方法(R-SMILES 和 LocalRetro)作为对照。从图 2 中可以看出,RetroExplainer 在 9 个数据集的大部分上都优于基准控制的 top-1、3、5 和 10 精度。这进一步证明了RetroExplainer 的有效性和稳健性。此外,结果还表明,与现有方法相比,RetroExplainer 模型对带有scaffold的看不见的分子具有更强的域适应性。
Fig. 2 | USPTO-50K 数据集与 Tanimoto 相似性分割的性能比较。子图表示RetroExplainer 和现有方法在USPTO-50K数据集上的top-k精度(k = 1,3,5,10)。在输入分子结果的不同相似阈值(σ = 0.4, 0.5, 0.6),以及验证集和测试集的组合比例的不同切分比率(0.2,0.25和0.3)下,分别测量了这些值。每一个结果都来自于用不同的随机种子进行的三次重复实验。三个数据点的最小值、最大值和中位数分别由每个框内的下须、上须和中心线表示。