• 蛋白质致病突变的计算方法(二)


    (继续上一篇)

    2 致病和中性突变数据库

    高通量和低成本的DNA测序技术有助于积累(accumulate)大规模突变数据,并且,各种生物数据库在文献中已经被报道。这些数据库存在一些优势特性,结构化存储、组织性强、数据共享,并且具有web应用程序的编程接口,用于自动交换和融合来自多个数据库资源的数据。在本节中,讨论了一些重要的致病和中性突变数据库,如Humsavar、ClinVar、1000 genomes、HuVarBase、MutHTP、dbCPM、DisGeNet、HGMD和OMIM(表1)。

    表1 突变相关的疾病数据集 (最后访问时间至2023.1.9)

    Name

    important featuresLinkNo of recordsReference
    Humsavar人类变异的致病性UniProt81749UniProt Consortium (2015)
    ClinVar人类遗传变异及相关疾病资料库https://www.ncbi.nlm.nih.gov/clinvar/submitters/2,665,071Landrum et al. (2018)
    1000 Genomes从全基因组测序中获得的常见人类遗传变异

    1000 Genomes | A Deep Catalog of Human Genetic Variation

    88 million1000 Genomes Project Consortium (2015)
    HuVarBase具有基因和蛋白质水平信息的人类变异数据HuVarBase774863Ganesan et al. (2019)
    MutHTP人类跨膜蛋白突变数据库MutHTP (iitm.ac.in)183395Kulandaisamy et al. (2018)
    dbCPM从文献中手动整理的乘客突变http://www.xialab.info:8080/dbCPM/1919Yue et al.(2018)
    DoCM癌症中有明确的功能变异DoCM - Database of Curated Mutations1364

    Ainscough et al. (2016)

    OMIM人类基因和遗传表型概要Home - OMIM26756Amberger et al. (2019)
    DisGeNet与人类疾病有关的遗传变异和基因分组。DisGeNET - a database of gene-disease associations1134942Piñero et al.(2021)
    HDMD人类遗传疾病的变异类型和合子性HGMD® home page (cf.ac.uk)352731Stenson et al. (2017)

    2.1 Humsavar

    Humsavar拥有(hold)超过70000种人类变异的致病性信息,并作为评估工具的基准,旨在预测错义单核苷酸多态性(SNPs)的致病性。大多数变体被标注为中性(多态性)或与疾病相关的变体,少量数据未分类。Humsavar的数据链接到UniProt,可以在https://www.uniprot.org/docs/humsavar上访问(be accessed at)。

    2.2 Clinvar

    ClinVar是人类基因变异的档案(archive),包含与疾病相关的解释。它根据变体和疾病状况收集,并提供全面的解释,以表明提交者之间是否存在共识(consensus)或分歧(disagreenment)。此外,它根据提交者的分类标准为每个记录分配了审查状态,主要关于提交者之间关于变体解释的一致程度以及专家组或指导方针制定小组是否对变体进行了解释,。ClinVar数据库地址为https://www.ncbi.nlm.nih.gov/clinvar/。

    2.3 1000 genomes

    1000基因组计划收集来自不同个体组的全基因组测序数据,以产生对常见人类遗传变异的描述。这些信息是通过结合密集微阵列基因分型、深度外显子组测序和低覆盖率全基因组测序得到的。它涵盖了广泛的遗传变异,描述了全球样本的分布以及对常见疾病研究的影响(implication)。1000 genomes数据库可在https://www.internationalgenome.org/获得。

    2.4 HuVarBase

    Ganesan等人开发了HuVarBase (HUmanVARiantdataBASE),提供了包含基因和蛋白质水平信息的全面的人类变异数据。它包含基因级别的信息,如基因名称、基因组位置和染色体数目、DNA变体、突变类型起源和rs ID编号。在蛋白质水平上,它详细描述了氨基酸序列、结构域、功能、亚细胞定位、突变残基的二级结构和翻译后修饰。用户可以选择搜索、显示、可视化和下载结果。它还具有疾病类别,它使用KEGG 中可用的信息来识别致病变异。HuVarBase可用于处理特定疾病的突变,网址为https://www.iitm.ac.in/bioinfo/huvarbase。

    2.5 MutHTP

    人类跨膜蛋白突变(MutHTP)数据库包含来自COSMIC、Humsavar、1000 Genomes、SwissVar和ClinVar数据库中发生在膜蛋白中的缺失、插入和错义突变的突变数据。它包含序列和结构信息,膜蛋白特征和交联(cross-link)到其他相关的序列和结构数据库,如Gene Cards, UniProt和PDB。可以使用各种选项来搜索MutHTP,例如UniProt ID、PDB ID、基因名称、突变、拓扑结构(跨膜、细胞质和细胞外)、疾病名称、疾病类别和数据库来源。在这个数据库中,使用KEGG Human Diseases将疾病分为14类。它可以通过https:// www.iitm.ac.in/bioinfo/MutHTP/免费获得。

    2.6 dbCPM

    dbCPM是一个广泛的、人工标准的数据库,使用文献中可用的信息。它包含实验支持和假定的(putative)乘客突变。该数据库包括功能实验(体内和体外)支持的乘客突变,这些突变在健康对照中复发频率高。癌症研究界使用dbCPM作为标准的负数据集来改进和评估预测算法。dbCPM的网址是http://www.xialab.info:8080/dbCPM/。

    2.7 DoCM

    DoCM(癌症突变数据库)是一个与癌症相关的体细胞突变基因信息的数据库。它从个人策划的出版物和现有资源(如ICGC, COSMIC, TCGA, ClinVar和CIVIC)中积累了关于预后,诊断,预测或功能角色的变体的信息。DoCM可以通过http://www.docm.info/访问。

    2.8 OMIM database

    OMIM数据库是人类基因和遗传疾病(genetic disorders)的目录。它存储有关连锁数据(linkage data)、表型和所有可遗传/可遗传人类疾病的参考资料的信息。此外,它还提供关于结构、功能、与疾病和动物模型的关联的信息。OMIM搜索结果全面地描述了每个基因及其相关疾病以及与这些疾病相关的其他基因。该数据库可通过 https://www.omim.org/ 访问。。

    2.9 DisGeNet

    Piñero等人(2021年)开发了一个数据库DisGeNET,其中包含与人类疾病相关的基因和变异的集合,包括由疾病或药物治疗及其副作用(side effects)引起的表型和特征(traits)。它包括来自策划仓库、科学文献、GWAS目录、动物模型、词汇和社区驱动的本体的数据。这个数据库可以通过https:// www.disgenet.org/ 访问。

    2.10 HDMD

    HGMD通过文本挖掘和人工整理从科学文献中提取了一组突变数据。该数据库包含变体类型、合子性(zygosity)和与相关数据库交联的信息。这个数据库可以通过https://www访问。hgmd.cf.ac.uk / ac / index . php。

    Q:使用KEGG 中可用的信息来识别致病变?

  • 相关阅读:
    【Python】Python脚本命令行解析
    Java 复习笔记 - 集合进阶篇:Collection集合
    压缩感知学习
    c++中的多态
    百度百科修改审核不过怎么办?修改百科词条的技巧
    人脸识别测试数据分析
    linux下nginx安装与配置说明
    python零基础看完必会安装和配置环境,文末附下载安装包
    【【萌新的SOC学习之绪论】】
    Android视图手册之Broadcast广播
  • 原文地址:https://blog.csdn.net/Daisy4/article/details/137951281