• DTI综述(更新中)


    Deep Learning for drug repurposing:methods,datasets,and applications

    觉得综述有点旧了,自己写个DTI综述,适合DTI入门的同学看

    数据集(开源)

    datasetcontents (包括但不限)source领域 (包括但不限)数据量(P/N)
    BindingDB药物序列,蛋白质序列,label(0/1)DrugBAN-githubDTI
    BioSNAP药物序列,蛋白质序列,label(0/1)DrugBAN-githubDTI
    HUMAN药物序列,蛋白质序列,label(0/1)DrugBAN-githubDTI
    C.elegans药物序列,蛋白质序列,label(0/1)DeepDTA-githubDTI
    DUD-E药物序列,蛋白质序列,label(0/1)DeepDTA-githubDTI
    DAVIS药物序列,蛋白质序列,label(0/1)DeepDTA-githubDTI
    KIBA药物序列,蛋白质序列,label(0/1)DeepDTA-githubDTI
    KinaseSARfari??DTI

    Representation Learning

    Sequence-based

    在这里插入图片描述

    Drug representations(对于分子化合物).

    (a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号

    (b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹,如圆形指纹,是分子的2D表示,它循环搜索每个原子周围的部分结构,然后使用哈希函数将分子转换为二进制向量。然而,由于生成的向量不仅高维稀疏,而且由于哈希函数,它们可能包含“比特碰撞”。

    © Graph Neural network (GNN) was adopted to transfer a molecular graph to a vector where the atoms and bonds were denoted by nodes and edges, respectively.

    此外,Mol2vec被提出并被认为是最具代表性的方法,将分子子结构视为“词”,化合物视为“句子”,并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能,但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失,这对于药物靶标的结合细节可能很重要。因此,3D 表示将在未来引起更多的关注。

    在这里插入图片描述

    Target representations.

    (a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码

    (b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示,该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。

    © Graph convolutionalnetwork was used to learnthe representation of the three-dimensional (3D) protein graph withnodesrepresenting the various constituent non-hydrogen atoms.

    同样,蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发,进一步开发了ProtVec和doc2vec,从蛋白质序列生成非重叠的3-gram子序列,并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而,这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同,UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示,这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。

    Network/graph-based representation learning

    RDKit可以很容易地将SMILES字符串转换为分子图,对于分子,我们可以将原子和键表示为12条边连接的顶点(drug图c)。

    对于蛋白质,表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码,是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离,并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比,另一种有前途的技术,称为网络嵌入,用于学习全局特征。具体来说,它通常将节点、边及其特征映射到一个向量,它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示,深度学习模型就可以应用于基于网络的任务,包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法,称为概率图,结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外,在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之,VAE是自动编码器的变体,它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化,以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。

    Drug

    embedding:

    Drug encoder

    MODELINPUT
    GCNMolecular graph
    Graph Transformer没找到
    Transformer encodersequence(one-hot 向量,MolTrans)
    MOLFormersequence(wordpiece)

    Protein

    embedding:
    1.k-gram(k=3)+word2vec(transformerCPI)
    2.wordpiece(ESM)

    Protein encoder

    GNN不写了

    MODELINPUT
    CNNProtein sequence
    Protein BertProtein sequence
    ESMProtein sequence

    模型

    药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用,可分为“以靶点为中心”或“以疾病为中心的”方法。

    Modeldrugtarget(pr)architecturetaskyear
    DeepDTIextended-connectivity fingerprintcomposition of amino acids, dipeptides, and tripeptidesDBNDTI2017
    E2E(Gao et al.)SMILES->Molecular graphgene ontology、Protein sequencegraph CNN,LSTM,Siamese networkDTI2018
    DeepDTASMILESProtein sequenceCNN,FCDTA2018
    DeePred-----GOMLP蛋白质功能预测2019
    GraphDTAMolecular graphProtein sequenceGCN,DNNDTA2019
    DeepConv-DTIFingerprintProtein sequenceCNN(pr),FC(drug),MLPDTI2019
    DrugVQASMILES2D distance map(pr:resnet+seq attention) ,(drug:Bi-LSTM+Multihead self attention(不是transformer)) ,MLPDTI2019
    MolTransSMILES->子结构序列Protein sequence ->子结构序列encoder: transformer ,fusion: CNNDTI2020
    TransformerCPIMolecular graphProtein sequence(CONV1D+ GLU)Transformer encoder,transformer decoderCPI2020
    ImageMolMolecular images-resnet,五个代理任务(可能可以起到约束的效果,但encoder大点应该会更好,TSNE散点图(features of the GAP layer of ImageMol.)Drug discovery2022
    MultiDTI (一般)SMILESProtein sequence(还有drug、target、disease、side effect 之间的,直接编码)CNN,MLPDTI2021
    MOVESMILESProtein sequence(还有drug、target、disease、side effect ,后两个直接编码)CNN,GCN,MLP,图attention,contrastive learningDTI2022
    CLOOMESMILES->Morgan fingerprintsMolecular imagedescriptor-based fully-connected networks,resnet,continuous modern Hopfield networks,contrastive learningDrug discovery2022 ICLR workshop
    BridgeDPI(sota)SMILESProtein sequence(pr:k-mer +seq CNN) (drug:fp features+seq CNN),GNN(超节点),MLPDPI2022
    AttentionSiteDTI(sota)SMILES->bidirectional graph,不是molecular graph3D PDB data->binding site->graph(每个原子是一个节点)TAGCN,Bi-LSTM,self-attention,MLPDTI2022
    DrugBANSMILES->Molecular graphProtein sequenceGCN,CNN,biattentionDTI2023 Nature MI

    其他的模型,没读过

    Modeldrugtarget(pr)architecturetaskyear
    DeepAffintiySMILESProtein SPS(Structural property sequence)RNN,CNN,Attention MechanismDTA2019
    MCPINNECFP&Mol2Vec&SMILESAmino acid sequence & ProtVecDNNCPI2019
    Tsubaki et al.Molecular graphAmino acid sequenceGCN,CNN,attention mechanismCPI2019
    TrimodelBiomedical knoledge graphs about drug and target-Knowledge Graph EmbeddingDTI2019

    算法的输入差别都比较大

    可解释性

    生物和医学的算法基本都要可解释性强的
    1.attention map(AttentionSiteDTI)


    Databases(包括但不限于综述中的)

    都是数据库,数据集还要自己造,看看别的论文的数据集开源没

    DATABASEDESCRIBE
    BindingDB有详细的drug信息和对应的target,V5.1.7包括13791个drug entries(DTI)
    KEGG(Kyoto Encylopedia of Genes and Genomes)集成数据库,包含来自基因,蛋白质,生物通路和人类疾病的大规模分子数据集,
    Pubchem化学分子数据库及其对生物测定的活性,包括110万个化合物,27100万个substances以及297 million bioactivities,提供了多种分子信息,包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等
    CCLE对抗癌药物有用
    ChemDB提供了化学结构和分子性质,还预测了分子3D结构
    CTD(Comparative Toxicogenomics Database)CTD提供了有关化学基因(chemical-gene?)或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information
    DGIdb从30个来源挖掘的DTI,包括DrugBank、PharmGKB、Chembl,DrugTarget Commons,Therapeutic Target Database
    DrugBank将药物数据信息(chemical,pharmacological,pharmaceutical)和药物靶标信息(sequence,structure,pathway)结合
    DrugCentral提供了active chemical entities and dug mode of action
    DTC(Drug Target Commons)DTC整理了生物活性数据以及蛋白质分类into superfamilies,临床阶段和不良反应以及disease indications
    DTP(Drug Target Profiler)DTP包含drug target生物活性数据并实现了网络可视化,还包含药物的基于细胞的药物反应图谱及其临床相位信息
    GCLIDA包含DTI for G-protein-coupled receptors(GPCRs)
    GtopDB包含已批准的药物和在调查中的化合物的定量生物活性数据
    PathwayCommon包含生化反应、complex assembly、物理相互作用的,涉及蛋白质、DNA、RNA、小分子和复合物
    PharmGKB包含临床以实和研究人员药物反应的遗传变异的综合数据
    STITCH存储了化学品和蛋白质已知和预测的相互作用,涵盖了来自2031和生物体的9643763个蛋白质
    Supertarget用于分析DTI和药物副作用
    BioSNAPDTI
    HUMANDTI
    TTD(Therapeutic Target Database)提供了有关已知和探索中的therapeutic protein和nucleic acid targets,靶向疾病、通路信息以及针对每个target的相应药物信息
    AOPEDF从DrugBank,TTD,PharmKGB收集物理DTI,并利用生物活性数据从chembl,bindingdb提取DTI,从DrugBANK中提取每种药物的SMIES格式的化学结构。
  • 相关阅读:
    嵌入式分享合集46
    TaiShan 200服务器安装Ubuntu 18.04
    VBA 将TXT的多行文本文件进行处理,以ID为单位处理成 一行
    1.MySQL库的操作
    大型架构设计的演进之路
    外卖店优先级问题(双指针降低时间复杂度)
    【愚公系列】2022年11月 微信小程序-全局数据共享
    天天基金股票数据爬取
    C语言学习(六)函数
    python爬虫开源项目代码基于Python实现的租房数据分析和展示系统
  • 原文地址:https://blog.csdn.net/qq_52038588/article/details/133905289