• Cross-species regulatory sequence activity prediction


    摘要

    文章使用深度神经网络来学习人类和小鼠极影数据的序列,并提高了对保留序列的基因表达预测准确性。同时使用迁移学习,使得小鼠调节模型能够分析与分子表型、疾病相关的人类遗传变异。

    模型

    总体结构

    Alt

    图1

    如图1所示。
    首先先将人类和小鼠的DNA序列转化为one-hot编码表示,为四行二进制矩阵。之后输入到7个迭代的卷积块和最大池化层中,用于学习128bp中的序列信息。
    卷积块包括如下操作:

    • 宽带为5的卷积(在第一层为15)
    • 归一化
    • GELU激活函数
    • 宽度为2的最大池化

    之后使用11个扩张残差块(使用扩张卷积,每次将扩张率增加1.5倍),和输入叠加,用于在长序列中共享信息。
    扩张残差块包括如下操作:

    • GELU激活函数
    • 宽度为3,扩张率为d,过滤器数量为384的扩张卷积
    • 归一化
    • GELU激活函数
    • 宽度为1,过滤器数量为768的卷积
    • 归一化
    • 0.3的dropout
    • 和输入相加

    最后应用线性变换来预测人类或小鼠的数千个调节活动信号轨迹。除最后一层外,所有参数在物种之间共享。

    输入输出

    输入:6956个来自于encode和fantom的人和小鼠细胞的131072( = 2 17 =2^{17} =217个功能基因序列
    输出:预测TF结合、DNA可访问性和转录类型

    研究结论

    多基因组训练对泛化准确性的影响

    训练了三个独立的模型:人类和小鼠联合训练,单独训练人类,单独训练小鼠。使用相同的模型架构和超参数。每个模型训练30个epoch
    结论:

    • 联合训练提⾼了 94% 的⼈类 CAGE 和 98% 的⼩⿏ CAGE 数据集(⼆项式检验 p 值 1e-16 和1e-16)的-16)的测试机准确度,确度,将分别用于人类和小鼠的平均 Pearson 相关性提⾼了 0.13 和 0.26
    • 联合训练提高了 DNase、ATAC 和ChIP的预测,但幅度较小
    • 55% 的⼈类和 96% 的⼩⿏数据集的平均测试集相关性增加

    调节序列活动模型能够跨物种转移

    结论:经过训练,能够预测以恶物种的调节性序列活动模型,也能够对来自另一个物种的匹配样本做出准确有效的预测。
    方法:
    选择人类和小鼠的小脑、肝脏和CD4+细胞,从训练集之外的所有人类基因的转录起始位点提取CAGE基因表达测量了,并计算对人类和小鼠的这种组织和细胞类型的预测。
    在人类基因TSS中,观察到小鼠预测与人类观察到的信号的平均跨物种预测精度为 0.73,而人类预测与人类观察到的信号的相关性为 0.75。使用CAGE数据集的平均值对TSS数据进行归一化,对于匹配样本,观察到对于匹配样本的人类数据的小鼠预测,标准化信号的 Pearson 相关性仍然很高。 相反,与来自不同组织/细胞类型的数据相比,标准化预测导致负相关(图 3c)。 因此,这些模型已经学习了超出基线水平的组织和细胞类型特异性,并且能够跨物种转移这些知识。

    小鼠训练模型能够阐明人类遗传变异

    在小鼠数据上训练的模型允许人们预测:如果两个人类等位基因存在于小鼠细胞的调节环境中,它们的行为方式之间有何差异。

    小鼠训练模型突出了与人类神经发育疾病相关的突变

    对自闭症患者家庭进行全基因组测序,能够检测到这些后代平均有67个从头突变,其启动子略有富集。通过变异效应的预测可以区分自闭症病例和其未受影响的兄弟姐妹。
    应用该模型预测每个从头突变将如何影响 357 只小鼠 CAGE 全身组织和细胞类型的信号,病例组与对照变体组相比显著多177个阴性预测。

  • 相关阅读:
    14天阅读挑战赛(认识算法的特性)
    智慧中控屏
    MEGC(FACIAL MICRO-EXPRESSION GRAND CHALLENGE)微表情识别比赛相关网站
    39.克鲁斯卡尔(Kruskal)算法
    深入了解 npm 命令
    yarn 设置淘宝镜像配置
    git工具下载和安装
    婴儿摇铃玩具亚马逊审查要求做CPC认证标准要求
    安全至上:落地DevSecOps最佳实践你不得不知道的工具
    猿创征文|【深度学习前沿应用】文本审核
  • 原文地址:https://blog.csdn.net/dawnyi_yang/article/details/126083826