文章地址:https://academic.oup.com/bib/article/22/6/bbab244/6310410?login=true
DOI:https://doi.org/10.1093/bib/bbab244
期刊:BRIEFINGS IN BIOINFORMATICS
2022年影响因子/JCR分区:13.994/Q1
发布时间:2021 年 6 月 28 日
Web在线服务器:http://lin-group.cn/server/DeepIPs
GitHub:https://github.com/linDing-group/DeepIPs
SARS-CoV-2感染在全球的快速传播已经造成了大规模的健康和社会经济危机。识别磷酸化位点是了解SARS-CoV-2感染的分子机制和宿主细胞内途径变化的重要一步。在这项研究中,作者提出了DeepIPs,这是第一个用于识别感染SARS-CoV-2宿主细胞中的磷酸化位点的特定深度学习结构。DeepIPs由最流行的单词嵌入方法和卷积神经网络–长短期记忆网络结构组成,以做出最终的预测。独立测试表明,与其它现有的一般磷酸化位点预测工具相比,DeepIPs提高了预测性能。
严重急性呼吸综合征冠状病毒2(Severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)是一种高度传染性和致病性的冠状病毒,于2019年末出现,已导致急性呼吸道疾病的大流行,被称为2019年冠状病毒病(coronavirus disease 2019,COVID-19),出现了大规模的健康和社会经济危机。为了制定治疗策略来征服SARS-CoV-2感染和相关的新冠肺炎病理,迫切需要开发新药和重新调整现有药物的用途,以缩短病程,减轻医疗机构的负担。自2020年10月2日起,新冠肺炎约有405种治疗药物正在开发中,但大多数仍处于计算阶段,未经感染模型试验。全面了解SARS-CoV-2感染的分子机制和宿主细胞内途径的变化是合理调整药物用途的关键。
蛋白质组学方法是通过量化蛋白质丰度和磷酸化的变化来阐明发病机制的有力工具。例如,Stukalov等人以全系统的方式描述了相互作用组、蛋白质组和信号传递过程,以研究SARS-CoV-2与宿主细胞的关系;Bouhaddou等人提出了基于定量质谱学的SARSCoV-2在Vero E6细胞中感染的磷酸蛋白质组学研究,揭示了宿主和病毒蛋白上磷酸化的戏剧性重新连接;Klann等人利用人Caco-2细胞中SARS-CoV-2感染系统,通过磷蛋白质组学研究信号的变化;Hekman等人对SARSCoV-2在iAT2细胞中的感染进行了定量的磷酸蛋白质组学研究,以探索感染和病理的驱动机制。上述研究中使用的高通量质谱学技术可以准确地注释磷酸化位点,从而积累了大量的磷酸化实例。然而,传统的实验方法劳动强度大、耗时长,尤其适用于验证大量的候选磷酸化位点。或者,作为传统实验策略的补充技术,计算方法是更好的选择。
到目前为止,已经提出了相当多的用于识别磷酸化位点的预测因子。它们大多表现出一种共同的策略,可以概括为两个步骤:(1)基于人工设计的特征提取方法对原始序列进行编码;(2)选择优化的机器学习算法进行分类和预测。例如,PhosPred-RF使用了信息论特征、重叠属性特征、20位特征、21位特征和Skip-n-gram特征,并通过基于随机森林的算法训练进行磷酸化位点预测;Quokka应用了各种序列评分函数结合优化的Logistic回归算法来预测磷酸化位点;GPS 5.0使用了两种新的方法,即位置权重确定和评分矩阵优化,然后使用Logistic回归算法来识别磷酸化位点。虽然这些方法所涉及的特征都取得了较好的磷酸化位点预测效果,但是这些方法都存在着局限性,即需要人工设计可能会导致特征偏向的特征。
应对这一挑战的一个有前景和有吸引力的解决方案是基于深度学习的方法。与传统机器学习技术繁琐的“特征工程”相比,深度学习显示出明显的优势。它能够自动生成复杂的模式,并自适应地从训练数据中捕获高层抽象。在此基础上,提出了几种基于深度学习的磷酸化位点识别模型。例如,MusiteDeep将原始序列数据作为输入,并使用具有新型二维注意机制的卷积神经网络(CNN)来预测磷酸化位点;CapsNet引入了一个带有多层CNN的胶囊网络,用于蛋白质翻译后修饰位点的识别,并展示了胶囊在表征生物意义特征方面的一些突出特性;DeepPSP设计了一个基于全局和局部信息的深度神经网络,用于预测磷酸化位点。这些仅使用原始序列的方法已经显示出优于以前的传统机器学习方法。然而,目前还没有特定的深度学习结构来识别感染SARS-CoV-2的宿主细胞中的磷酸化位点。
作者出了一个新的CNN-LSTM架构,即DeepIPs,用于准确预测感染SARS-CoV2的宿主细胞中的磷酸化位点。与上述深度学习方法不同,DeepIPs在自然语言处理中使用词嵌入的方法来获取蛋白质序列表示,避免了特征工程的局限性,有效地提高了模型的性能。为了评估DeepIP的性能,作者构建了不同的独立数据集来评估该模型。评估结果表明,词嵌入和CNN-LSTM结构生成的稳健表示在识别一般的磷酸化位点时具有很强的区分能力。所以作者提出的体系结构也可以比以前的方法更好地解决其他生物信息学问题。此外,作者的研究提供了生物序列分析中流行的词嵌入方法的一个早期用例,并可能对其他生物预测问题提供借鉴。
在这项研究中,实验证实的感染SARS-CoV-2的人A549细胞的磷酸化位点来自文献【Multi-level proteomics reveals host-perturbation strategies of
SARS-CoV-2 and SARS-CoV】,该数据集包括14个119个磷酸化位点。为了减少磷酸化蛋白的序列冗余,避免模型过度拟合,使用CD-HIT程序,序列同源性阈值为30%。为了便于与现有的其他磷酸化位点预测方法进行比较,处理后的序列被截断为以S/T或Y为中心的33个残基长的序列片段。如果片段的中心S/T或Y是磷酸化的,则定义为正样本;否则,定义为负样本。结果,得到了大量的负样品。为了平衡正负数据,作者随机选择了非冗余负样本的子集,以匹配正样本的数量。获得S/T位点正样本5387份,负样本5387份,Y位点正样本102份,负样本102份。同时,本研究采用了深度学习框架中常用的序列分析性能评估策略,将数据集随机分为严格不重叠的训练集和独立的测试集,比例为8:2。
单词嵌入是自然语言处理中的一组技术,其中词汇中的单词被表示为使用大量文本语料库作为输入的向量。我们之前的研究已经证明,将每个氨基酸(AA)转换为定义大小的固定长度的向量并降低特征维度的单词嵌入方法可以产生令人满意的预测性能[21]。因此,在本研究中,实现了两种蛋白质序列的编码策略:一种是监督嵌入层(SEL);另一种是基于预先训练的单词嵌入的非监督嵌入层,其中嵌入了Word2Vec、Glove和fastText。
Kera[26]中嵌入层的本质是一个完全连通的神经网络,它将正整数(索引)转化为固定大小的密集向量。对于给定的蛋白质序列,通过用其对应的编码者替换氨基酸来生成固定长度的数字载体。如果长度小于‘max_length’,使用函数‘Pad_Sequence’将蛋白质序列的长度放大到 200 个氨基酸。通过这样做,蛋白质序列被转换为具有许多零的稀疏向量。然而,这种普通的编码方案不能反映蛋白质残基与其顺序和空间邻居之间的关系。因此,作者使用嵌入层通过将蛋白质序列模拟为文档并将氨基酸模拟为单词,将氨基酸映射到密集向量。从大规模序列中学习到的两个任意氨基酸之间的语义相似性使作者能够使用相似性的连续度量概念来评估单个氨基酸的语义质量。嵌入氨基酸可以通过将左侧的 one-hot 向量与权重矩阵 W ∈ Rd×|V|相乘来完成,其中|V|是独特氨基酸的数量,d 是嵌入大小。假设vi是给定蛋白质序列x=x1,x2···xn中的氨基酸xi的单热载体,xi的嵌入可以表示如下:ei=Wvi。以反向传播的方式随机初始化权重矩阵并进行更新。在嵌入层之后,输入序列可以用稠密矩阵来表示:Ed×n =(e1, e2 · · · , en)。
Word2Vec是一种基于前馈神经网络的机器学习模型,可以用来生成文本中单词的矢量表示,并已广泛应用于生物信息学问题。训练这种模型的基本思想是根据从大型文档语料库收集的单词邻近度,将相似向量表示分配给相似上下文中的单词。作者使用Word2Vec来训练蛋白质序列的分布式表示和嵌入。认为定长k的子序列是氨基酸‘词’(也称为k−mers)。所有可能的k个mers的集合被定义为词汇量(词汇量=21)。然后使用k大小的滑动窗口扫描蛋白质序列及其侧翼区域,步长为1。在构建蛋白质序列及其侧翼区域后,采用CBOW模型对嵌入层进行预训练,CBOW模型相对于Skipgram模型具有均匀组织分布在数据集中的信息的优势。CBOW模型旨在通过几个周围的上下文单词来预测当前单词。在对CBOW模型进行训练后,将优化后的参数作为嵌入层的初始权值,并在片段标签的监督下与后续层一起进行微调。在作者的工作中,Word2vec是用genism=3.8.0实现的。
Glove是一种无监督学习算法,用于产生单词的矢量表示。学习是在从语料库计数的全局单词共现统计中执行的。GloVe模型学习全局词-词共现矩阵的非零条目上的条目,该矩阵显示词在表中给定语料库中共现的频率。一般来说,非零的矩阵条目的数量比语料库中的单词总数要少得多。因此,基于加权最小二乘回归模型的损失函数收敛速度更快。
在作者的实验中,将向量大小设置为100,将窗口大小设置为15。
fastText是Facebook研究团队创建的一个库,它允许创建一种无监督学习算法来获得单词的矢量表示。该模型利用低阶矩阵来减少计算负担,同时在特征和类之间共享参数。这在输出空间大的情况下尤其有用,在这种情况下,罕见的类可能只有几个训练示例。fastText使用类似于CBOW模型的架构,从而将超过N个文档的Softmax损失降至最低。
其中,xn是one-hot向量,Yn是第n个文档的标签。与基于单词级别表示的Word2Vec和GloVe不同,fastText使用较小的字符级别单位来获取单词表示。在本研究中,作者实现了一个1G包来捕获关于局部词序的部分信息。
卷积层:1D卷积
激活函数:ReLU
池化层:最大池化步幅设置为2
丢弃层:0.5
LSTM层:将输出大小设置为70
Dense层:将节点数设置为等于2
环境:Kera=2.2.2、TensorFlow=1.2.1和sklear=0.22.1
作者评估和比较了CNN-LSTM架构中使用的四种不同的单词嵌入方法的预测性能,并基于S/T和Y磷酸化位点数据集进行了5折交叉验证。结果如图3和表2所示。
最终基于SEL建立了S/T的最终模型,基于GloVe建立了Y的最终模型。
先前的研究表明,一些激酶抑制剂,如Gilteritinib(一种指定的Flt3/Ax1抑制剂,Ipatasertib(AKT抑制剂)),可以通过阻止SARS-CoV-2的复制并干扰其所需的宿主途径而被用作治疗新冠肺炎的潜在药物。因此,通过整合不同的数据库资源,缩小抗病毒化合物的范围,发现作为治疗靶点的宿主激酶,将为开发新的治疗策略奠定基础。在这一思想的启发下,作者利用本工作中使用的基准数据集中的基因名称和蛋白质登录号作为索引,在Phosphy SitePlus和Phop.ELM数据库中搜索相应的Kase,并对Kase家族进行了分类。详细结果见《补充数据》。作者发现大部分的磷酸化过程是由细胞周期蛋白依赖性蛋白激酶介导的,这表明病毒蛋白通过与宿主蛋白的相互作用来加速宿主细胞周期。这表明,PKC、CK2、PKA和Src也参与了磷酸化反应。因此,开发这些激酶的特异性抑制剂可能是治疗SARS-CoV-2感染的一种有前途的方法。
磷酸化在生物过程中具有重要意义,与SARS-CoV-2感染的发生有关。由于实验验证位点的局限性,耗费时间和金钱,迫切需要开发有效的计算方法来鉴定SARS-CoV-2感染的磷酸化。因此,在本研究中,作者提出了由最流行的单词嵌入方法和CNN-LSTM架构组成的DeepIPs来预测磷酸化位点。独立测试表明,DeepIPs比现有的磷酸化位点预测器具有更好的性能。此外,还建立了一个可免费访问的名为DeepIPs的网络服务器。