介绍
大多数小分子药物的生物学功能是通过结合靶蛋白的活性位点来抑制其活性。在药物发现中,设计新的分子由于搜索空间的离散性和巨大性,仍然具有挑战性。为了解决这一问题,许多机器学习方法已经被开发出来。
然而,在癌症等复杂疾病中,氨基酸的突变可能会显著影响药物与靶蛋白之间的结合亲和力。当某一特定氨基酸由于结合亲和力较弱而以一定的概率发生突变时,药物可能会脱离药物靶点,从而使患者产生耐药性。
为了解决这个问题,最近,一种名为Prote-的替代药物机制溶解靶向嵌合体(PROTAC)是通过促进靶蛋白的完全降解来抑制蛋白的功能。
PROTAC是一个独特的分子,由两个片段分子和一个连接器分子组成:一个片段结合目标蛋白,另一个片段与另一个可以降解目标蛋白的分子结合,连接器将两个片段连接在一起。
由于
PROTAC
只需要以高选择性结合目标(
而不是抑制目标蛋白的活性
),许多工作致力于重组以前无效的抑制剂分子作为PROTAC来开发下一代药物。
尽管PROTAC具有巨大的潜力,但它还没有被广泛地进入临床试验阶段。其中一个关键的挑战是连接剂的设计,它对目标蛋白的最终降解有关键的影响。
与经典的2d图形生成任务相比,链接器设计的一个关键挑战来自于它强大的三维空间约束。
在本文中,我们提出了一个条件生成模型,名为
3DLinker
,联合模型的二维分子图和三维连接器结构 ,以解决三维连接器设计问题。
背景
2.1.三维链接器设计
连接器的设计是生成一个小分子,它可以将两个给定的分子片段连接到特定的锚点上(结合原子)
与其将其建模为一个二维图生成问题,考虑三维信息是很重要的,因为设计的片段应该满足空间约束。因此,它需要链接器设计算法能够同时生成给定这两个片段及其空间坐标的化学图和三维坐标
数学上,分子可以看作是原子为节点,化学键为边的图。
G = (V, E, X)
【图】
其中,V是节点的集合
,是节点的数量,
X是节点类型,
,
E
⊂ V × V 是边,
r = (x, y, z)
【坐标】
R
是一个第i行为
的矩阵
.
一开始,用两个独立的图来表示未连接的片段。
G
F
= (
G
F
,
1
, G
F
,
2
) 包含【
R
F:几何特征】
GL:连接器,包含几何特征
RL
假设
G、
R是包含待连接片段和
ground truth连接体的连接分子图和几何形状。三维连接器设计模型是一个条件生成模型,它生成了
ground truth分子图
G
F以及给定的两个片段的几何形状
R
F:
p
(
G,
R
|
G
F
,
R
F)
PS:“在GF, RF的条件下G, R的概率”
2.2.O(3)、E(3)和等效方差
所有三维旋转和映射的组被称为三维正交群或O (3),所有三维旋转、平移和映射的组被称为三维欧几里德群或E (3)。设
X为输入空间,
Y为输出空间,GL (
X)是从
X到
X的所有可逆线性变换。
一个函数φ: X→Y被称为与G的等变.
如果对于所有组元素g∈G和所有x∈X,则存在组表示
: g→GL (X)和
: g→GL (Y)
πY (g)φ(x) = φ(πX (g)x).
在三维连接器设计中,我们知道一个分子图G不应该依赖于一个特定的坐标系,而R应该等量地改变为坐标系的变换。因此,可以提出了一个约束条件,即对于任何g∈E (3),生成模型 p(G, R|GF, RF) 都应该满足p(G, π(g)R|GF, π(g)RF) = p(G, R|GF, RF)其中,π(g)可以通过在三维空间中的任何旋转、平移或反射矩阵来实现。
相关工作
方法
实验
5.1. 实验设置
数据集:为了评估我们的模型,我们选择了锌的一个子集。对于每个分子,我们使用RDKit(Landrum)进行20次MMFF力场优化,并选择能量最低的一个作为地面真实值。我们获得了365749个(片段、连接器、坐标)三联体。并将它们随机分为训练(365039)、验证(351)和测试(358)。
评价:我们评估生成的分子的多个二维(图)和三维(坐标)度量,包括
uniqueness:唯一性 、novelty:新奇度、Pass 2D fifilters:2D fifilters的分子的生成百分比
Valid:有效性、Recovered:回复率、RMSD :均方根偏差