• windows ubuntu子系统,肿瘤全外篇1.安装软件及建立数据库


            外显子组测序(Exome sequencing)是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于外显子组测序捕获目标区域只占人类基因组长度的约1% ,但变异占比高达85%,因此远比进行全基因组序列测序来得更简便、经济,目标区域覆盖度也更高,便于变异检测。

            这次我主要分享的是在Ubuntu 子系统下,建立一个从fastq文件到vcf注释的肿瘤全外流程。主要是bwa-gatk4.

    #建立qw 环境

    conda create -n qw 

    conda activate qw

    #安装软件

    conda install -c bioconda sra-tools -y
    conda install -c bioconda samtools -y
    conda install -c bioconda bcftools -y
    conda install -c bioconda snpeff -y
    conda install -c bioconda qualimap -y
    conda install -c bioconda fastqc -y
    conda install -c bioconda bwa -y
     conda install -c bioconda  Cutadapt -y #失败,因为需要python =3.7
    conda install -c bioconda trim_galore -y #失败,因为需要python =3.7

    conda 建立新的环境 myenv python=3.7
     conda install -c bioconda  Cutadapt -y 
    conda install -c bioconda trim_galore -y

    #首先建立bwa人源比对数据库

    http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/ 官网下载hg38和MD5sum.txt

    touch md5.txt
    vim md5.txt
    #可以检查HG38的语句。

    1c9dcaddfa41027f17cd8f7a82c7293b  hg38.fa.gz #保存。
    md5sum -c md5.txt #ok就代表没问题。
    gunzip hg38.fa.gz #解压缩

    bwa index -a bwtsw hg38.fa #建立索引

    samtools faidx hg38.fa #samtools对hg38参考基因组进行FAI索引。

    wget https://github.com/broadinstitute/picard/releases/download/2.23.9/picard.jar  #迅雷下载java -Xmx2g -jar picard.jar

    java -jar /mnt/h/softwore/picard/picard.jar CreateSequenceDictionary R=./hg38.fa O=./hg38.dict  #Picard建立字典成功。

    最后生成以下文件。

    #接下来下载GAtk4

    wget -c https://github.com/broadinstitute/gatk/releases/download/4.1.2.0/gatk-4.1.2.0.zip #conda安装GATK没作用,这个下载太慢,而且有时候下载还需要填写什么用户名。在中国,下载这个软件还挺难的。

    #接下来登录gatk官网(非常慢),迅雷下载gatk-4.1.2.0,好不容易成功。

    export PATH="/mnt/h/softwore/gatk-4.2.1.0/:$PATH" #添加环境变量激活。

    #GATK是基于Java开发的,所以在运行GATK之前,需要确保Java已经正确安装并且在系统的环境变量中配置了Java的路径。
    sudo apt install default-jre #安装java

    终于成功。

    接下来,需要获得gatk hg38 的数据库。gatk4参考文件下载:console.cloud.google.com

    因为我没有公司的辅助了,最后我在从基因学苑公众得到gatkhg38的文件。大家可以去看,如果有能力也可以自己下载。如何下载生物数据(三):GATK数据下载 

    最终,我得到了gatk4 hg38 参考数据库。

    接下来,我们就可以下载人的肿瘤全外数据开始跑了。

  • 相关阅读:
    洛谷P2515 [HAOI2010]软件安装(tarjan缩点+树上背包)
    如何在您的 Weblogic 应用程序上配置 HTTPS SSL?
    基础说明 Reset Vector
    【多线程】常见的锁策略
    戏说领域驱动设计(廿六)——再谈事务
    矿用升降台驱动电机调速控制系统建模与仿真
    Android AndroidStudro版本gradle版本对应
    基于Java+SpringBoot+Mybatis+Vue+ElementUi的航空公司电子售票系统
    SQL查询比较慢,如何进行排查?如何进行SQL优化?
    OT:数字设定框(QSpinBox:处理整数,QDoubleSpinBox:处理浮点数)
  • 原文地址:https://blog.csdn.net/weixin_69558614/article/details/137839100