生物信息学笔记03 -- 基因组序列分析方法

相关背景

DNA结构
DNA分子的一级结构：A, C, G, T四种核苷酸的线性多聚体；
DNA分子由两条互相平行的脱氧核苷酸长链盘绕而成；
DNA分子中的脱氧核糖和磷酸交替连接，排在外侧，碱基排列在内侧；
两条链上的碱基通过氢键想结合，形成碱基对

于腺膘呤(A)总是与胸腺嘧啶(T)配对、鸟膘呤(G)总是与胞嘧啶©配对，这说明两条链的碱基顺序是彼此互补的

中心法则
在这里插入图片描述
遗传信息从DNA传递给RNA，再从RNA传递给蛋白质，即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA，即完成DNA的复制过程。

遗传密码
DNA或RNA序列以三个核苷酸为一组的密码子转译为蛋白质的氨基酸序列，用于蛋白质合成。

起始密码子：指定蛋白质合成起始位点的密码子。如AUG
终止密码子：tRNA无法正常识别但可以被特殊蛋白质结合并引起新合成肽链从翻译机器上释放的密码子。 UAG UAA和UGA
密码子： mRNA或DNA上三联体核苷酸残基序列，该序列编码着一个指定的氨基酸，tRNA的反密码子与mRNA的密码子互补

可读框：DNA中有潜在编码蛋白质氨基酸的核苷酸序列
编码区：DNA中对应于蛋白质中氨基酸序列的核苷酸序列
基因调控：生物体内控制基因表达的机制。表达的主要过程是基因的转录和信使核糖核酸(mRNA）的翻译
转录单位：包括转录的启动子及其上游的其它调控区域、基因本身和转录的终止序列
间隔区：基因序列中没有编码功能的区域

基因组测序

DNA片段在染色体上的位置、方向已知。染色体被打断成片段，克隆到BACs中进一步打碎克隆测序组装
鸟枪法：随机打碎DNA片段，克隆测序组装。DNA在染色体上位置方向未知

生物信息学核心问题：预测

预测性能计算、检验

阳性数据( P)：真实的，被实验所证实的数据
阴性数据(N)：被实验所证明为无功能的数据
真阳性 (TP): 阳性数据中被预测为阳性的数据
假阳性 (FP): 阴性数据中被预测为阳性的数据
真阴性 (TN): 阴性数据中被预测为阴性的数据
假阴性 (FN): 阳性数据中被预测为阴性的数据

灵敏度 (Sensitivity, Sn): 对于真实的数据，能够预测成“真”的比例是多少 - (Type II error)
等价于TPR和召回率
$\frac{TP}{TP+FN}$
特异性 (Specificity, Sp): 对于阴性的数据，能够预测成“假”的比例是多少 - (Type I error)
等价于TNR
$\frac{TN}{TN+FP}$
准确性 (Accuracy, Acc): 对于整个数据集(包括阳性和阴性数据)，预测总共的准确比例是多少

$Ac=\frac{TP+TN}{TP+FP+TN+FN}$

马修相关系数(Mathew correlation coefficient, MCC): 当阳性数据的数量与阴性数据的数量差别较大时，能够更为公平的反映预测能力，值域[-1,1]
$\frac{TP\times TN - FN\times FP}{\sqrt{(TP+FN)\times(TN+FP)\times(TP+FP)\times(TN+FN)}}$

FPR
$\frac{FP}{FP+TN}$
FNR
$\frac{FN}{TP+FN}$

准确率Precision
$\frac{TP}{TP+FP}$

P与R可能产生矛盾
F-Measure(F-score)
Precision和Recall的平均
$\frac{(\alpha^2+1)P\times R}{\alpha^2(P+R)}$
$\alpha = 1$ 的时候为F1

ROC曲线
⚫X轴：1-Sp
⚫Y轴：Sn
⚫ROC的面积越大，表明其预测能力越强

P-R曲线
⚫X轴：Precision
⚫Y轴：Recall
比较两个分类器好坏时，显然是查得又准又全的比较好。PR曲线越往坐标（1，1）的位置靠近越好

性能检验

自一致性检验 (Self-consistency): 将训练数据当成测试数据
反映当前预测工具对目前已知的数据的预测能力.但不能反应稳定性

泛化性能：
某一训练集上训练过以后的分类器适应该训练集以外的数据的性能，也称为可扩展性

k-折交叉验证，初试数据被划分成k个互不相交的子集或“折” $S_1,S_2,..., S_k$ ，每个折的大小大致相等。训练和测试进行 $k$ 次。在第 $i$ 次迭代， $S_i$ 用作测试集，其余的子集都用于训练分类法

 1. 将全部训练集 S分成 k个不相交的子集，假设 S中的训练样例个
	数为 m，那么每一个子 集有 m/k 个训练样例，，相应的子集称作
	{s1,s2,…,sk}。
 2.每次从分好的子集中里面，拿出一个作为测试集，其它k-1个作
	为训练集。
 3.根据训练训练出模型或者假设函数。
 4. 把这个模型放到测试集上，得到分类率。
 5.计算k次求得的分类率的平均值，作为该模型或者假设函数的真
	实分类率
1
2
3
4
5
6
7
8
9

充分利用了所有样本。但计算比较繁琐，需要训练k次，测试k次

留一法（Leave One Out）是一种特殊的交叉验证，它令n等于训练集个数，即每次只抽取一个作为测试样本。留一法错误的计算留一法错误是推广误差的几乎无偏估计。也叫Jackknife法

每次从数据集中去掉一个，重新进行训练，并计算预测性能(Sn, Sp, Acc & MCC)

保证每个数据去掉一次
计算性能的平均值
留一发计算最繁琐，但样本利用率最高。适合于小样本的情况

解鞋带法（Bootstrap）测试是一种估计训练误差偏差的方法，它以Bootstrap样本进行多次训练，并评价它们的总偏差。Bootstrap样本是通过替换法从训练样本中独立提取出来的。Bootstrap测试是一种计算代价非常高的评估方法

生成一系列的基分类器
基分类器的训练依赖于在其之前产生的分类器的分类结果，其在训练集上的错误率用于调整训练实例的概率分布,最终分类器通过单个基分类器的加权投票建立起来

泛化性能比较

发生留一法错误最少的模型的泛化能力最好，这时模型的参数是学习机最佳的参数。

直接进行留一法验证的代价是高昂的。它必须进行N次（N为训练集样本数）训练才能统计出留一法错误发生的次数。

Self-consistency:预测性能
Leave_one_out validation & n-fold cross-validation:预测稳定性

预测性能 vs. 检验性能

差距小系统稳定
差距大系统不稳定，数据过训练
1. 过训练：根据已知数据构建的模型只能很好的适用于训练数据
2. 不合适预测
3. 数据的微小改变对于预测性能影响过大
4. 过训练：只能很好的符合训练数据，而对新数据则性能很差

其他指标

计算速度：分类器训练和预测需要的时间；
鲁棒性：处理缺失值和异常值的能力；
可扩展性：处理大数据集的能力；
可解释性：分类器的预测标准的可理解性，像决策树
产生的规则就是很容易理解的，而神经网络的一堆参
数就不好理解，只好把它看成一个黑盒子。

基因发现的方法

基因识别：

识别基因组编码区
识别基因结构

方法

基因组序列中识别转录表达的DNA片段
cDNA文库挑取克隆

原核细胞基因结构：

非编码区不编码蛋白质，可调控遗传信息表达（调控序列）
编码区编码蛋白质（编码序列）

真核细胞

非编码区
编码区
1. 编码蛋白质序列外显子
2. 不可编码蛋白质的插入序列内含子
  结构为断裂基因

原核细胞和真核细胞基因：
都是由能编码蛋白质的编码区，调控作用的非编码区组成
原核编码区连续，真核不连续

在这里插入图片描述

基因预测方法

⚫给定一段序列，能否预测是否包含基因?
⚫哪些是基因的起点和终点？
⚫基因结构预测：真核生物的基因，包括启动子，外显子，内含子，剪切子，ESE，沉默子…….能够正确预测基因的结构？

何为基因预测
主要预测DNA序列中编码蛋白质的区域(CDS) ，抽象一点来说就是识别DNA序列上的具有生物学特征的片段

方法

排除重复序列
1.原核生物含完全不重复DNA，低等真核大部分为非重复，重复组分不超过30％。基本为中度重复，高等真核中近一半为中度或高度重复
确定开放阅读框
确定转录起始位点，推测非翻译区
确定基因的调控区-启动子

难点？

剪接位点难预测
编码区、非编码区长度比例下降，导致外显子预测很难
可能有多个外显子

现状

没有一个基因预测工具可以完全正确地预测一个基因组中的所有基因
基因预测工具对外显子预测准确率只有75%，预测基因结构准确率<50%
基因预测软件分析结果有差异

预测策略

"ab initio"方法，即通过探索DNA序列中特异的区域，如基因的起始区域和终止区域，来进行基因预测

取决于人们对已知基因结构特征的认识
采用统计学方法
❖ 基于一个或多个已知序列模式对未知序列进行分类
❖ 启动子结构
❖ 外显子、内含子
密码子偏爱性
对发现的模式进行统计检验

比较基因组学的方法，即根据与已知的蛋白质或基因之间的相似性来发现新的基因。
集成学习方法

生物信息学笔记03 -- 基因组序列分析 方法