• 为啥要这个index 建立索引为什么 hisat2


    索引(index)是帮助MySQL高效获取数据的数据结构(有效),在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。简而言之:帮助MySQL高效的查询出数据的数据结构叫做索引。

    索引类似于书籍的目录,提高数据检索的效率,减少数据库IO的成本
    通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗


    首先,bowtie的作用就是在一个大字符串里面搜索一个小字符串!那么本身就有一个非常笨的复杂方法来搜索,比如,大字符串长度为100万,小字符串为10,那么就依次取出大字符串的10个字符来跟小字符串比较即可,这样的算法是非常不经济的,我简单用perl代码实现一下。

    http://www.biotrainee.com/thread-26-1-1.html
    ----

    bowtie第三讲:序列查询。
    自己动手写bowtie第一讲:BWT算法详解并建立索引
    **

    写在前面index问题1:为什么要index

    **
    为什么比对的时候需要用到index?这里强烈建议大家去看Jimmy写的bowtie算法原理探究bowtie算法原理探究。
    高通量测序遇到的第一个问题就是,成千上万甚至上几亿条read如果在合理的时间内比对到参考基因组上,并且保证错误率在接受范围内。为了提高比对速度,就需要根据参考基因组序列,经过BWT算法转换成index,而我们比对的序列其实是index的一个子集。当然转录组比对还要考虑到可变剪切的情况,所以更加复杂。
    因此我门不是直接把read回贴到基因组上,而是把read和index进行比较。人类的index一般都是有现成的,我建议大家下载现成的,我曾经尝试过用服务器自己创建index,花的时间让我怀疑人生。
    链接:https://www.jianshu.com/p/681e02e7f9af

    来自官网:为了用整个index代表整个基因组,HISAT2 用小的index覆盖了整个基因组,每个index覆盖了56 Kbp的范围,覆盖整个人类基因组需要55,000 indexes,这些index结合其他策略可以快速准确的比对序列。

    写在前面index问题2:如何获得index
    1 HISAT2官网下载
    人类和小鼠的索引有现成的,HISAT2官网可以直接下载进行序列比对。如下图所示:选择hg19和mm10的index,文章中RNA-Seq测序数据,可以包括人类和小鼠的数据,因此需要小鼠和人类的索引。

    作者:Y大宽
    链接:https://www.jianshu.com/p/479c7b576e6f
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

    1.需要建立一个index文件有两种方法。

    为啥要这个index?需要把测序数据和这个参考基因组做对比,但是又不能直接和基因组做对比,不然哪儿跟哪儿可能区分不开,只能拿个简化版的注释文件做对比。

    第一种,直接去HISAT2这个网站下载就好了。生信小白就是这么干的。这次采用的是mm10 j基因组,所以下载了这个,但是,wget 方式太慢,又没有迅雷会员,便用IDM软件下载,还算快吧,但也好久了。(15:00 -24:00)

    第二种方式,自己下载基因组,自己用Hisat2软件构建index文件,但是我看不懂,更不会自己构建,算了,还是直接下载吧。
    ————————————————
    版权声明:本文为CSDN博主「leo12354」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/leo12354/article/details/105954250

  • 相关阅读:
    【MLA】一种内存泄漏分析方法
    基于FPGA的SPI读写M25P16 Flash芯片
    GIT常用命令
    Spring测试数据准备_java培训
    基于SSM的图书商城网站设计与实现
    1065 A+B and C (64bit)
    售后处置跟踪系统设想
    通过DSSM算法进行商品推荐 代码+数据
    A-Level数学高分笔记
    面向接口编程实践之aspnetcoreapi的抽象
  • 原文地址:https://blog.csdn.net/qq_52813185/article/details/128173844