• hisat2 建立索引 序列比对rnaseq上游分析linux


    比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2(官网HISAT2 website was moved to),并且搞懂它的用法。直接去hisat2的主页下载index文件即可,然后把fastq格式的reads比对上去得到sam文件。 接着用samtools把它转为bam文件,并且排序(注意N和P两种排序区别)索引好,载入IGV,再截图几个基因看看!* 顺便对bam文件进行简单QC,参考直播我的基因组系列。
    来源于生信技能树:http://www.biotrainee.com/forum.php?mod=viewthread&tid=1750#lastpost

    写在前面比对问题1:为什么要比对

    在比对之前,我们得了解比对的目的是什么?RNA-Seq数据比对和DNA-Seq数据比对有什么差异?
    RNA-Seq数据分析分为很多种,比如说找差异表达基因或寻找新的可变剪切。如果找差异表达基因单纯只需要确定不同的read计数就行的话,我们可以用bowtie, bwa这类比对工具,或者是salmon这类align-free工具,并且后者的速度更快。
    但是如果你需要找到新的isoform,或者RNA的可变剪切,看看外显子使用差异的话,你就需要TopHat, HISAT2或者是STAR这类工具用于找到剪切位点。因为RNA-Seq不同于DNA-Seq,DNA在转录成mRNA的时候会把内含子部分去掉。所以mRNA反转的cDNA如果比对不到参考序列,会被分开,重新比对一次,判断中间是否有内含子。
    链接:转录组入门(5): 序列比对 - 简书

    写在前面比对问题2:如何比对?那些软件

    最近的Nature Communication发表了一篇题为的Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis的文章--被称之为史上最全RNA-Seq数据分析流程,也是我一直以来想做的事情,只不过他们做的超乎我的想象。文章中在基于参考基因组的转录本分析中所用的工具,是TopHat,HISAT2和STAR,结论就是HISAT2找到junction正确率最高,但是在总数上却比TopHat和STAR少。从这里可以看出HISAT2的二类错误(纳伪)比较少,但是一类错误(弃真)就高起来。
    就唯一比对而言,STAR是三者最佳的,主要是因为它不会像TopHat和HISAT2一样在PE比对不上的情况还强行把SE也比对到基因组上。而且在处理较长的read和较短read的不同情况,STAR的稳定性也是最佳的。
    就速度而言,HISAT2比STAR和TopHat2平均快上2.5~100倍。
    链接:转录组入门(5): 序列比对 - 简书

    我们比对先采用HISAT2

    写在前面index问题1:为什么要index

    为什么比对的时候需要用到index?这里强烈建议大家去看Jimmy写的bowtie算法原理探究bowtie算法原理探究
    高通量测序遇到的第一个问题就是,成千上万甚至上几亿条read如果在合理的时间内比对到参考基因组上,并且保证错误率在接受范围内。为了提高比对速度,就需要根据参考基因组序列,经过BWT算法转换成index,而我们比对的序列其实是index的一个子集。当然转录组比对还要考虑到可变剪切的情况,所以更加复杂。
    因此我门不是直接把read回贴到基因组上,而是把read和index进行比较。人类的index一般都是有现成的,我建议大家下载现成的,我曾经尝试过用服务器自己创建index,花的时间让我怀疑人生。
    链接:转录组入门(5): 序列比对 - 简书

    来自官网:为了用整个index代表整个基因组,HISAT2 用小的index覆盖了整个基因组&#x

  • 相关阅读:
    优惠加油系统定制开发卡密
    QRegExpValidator(正则验证器)
    Java面试题大全(整理版)1000+面试题附答案详解最全面看完稳了
    HTTP响应状态码
    【实用工具】frp实现内网穿透
    MySQL根据备注查询表、字段
    cad怎么转换成黑白的pdf图纸?分享3个常用的软件!
    C Primer Plus(6) 中文版 第2章 C语言概述 2.9 关键概念 2.10 本章小结
    docker 部署环境基本流程
    Java 21 新特性:Unnamed Patterns and Variables
  • 原文地址:https://blog.csdn.net/qq_52813185/article/details/128173665