• windows ubuntu子系统,肿瘤全外篇1.安装软件及建立数据库


            外显子组测序(Exome sequencing)是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于外显子组测序捕获目标区域只占人类基因组长度的约1% ,但变异占比高达85%,因此远比进行全基因组序列测序来得更简便、经济,目标区域覆盖度也更高,便于变异检测。

            这次我主要分享的是在Ubuntu 子系统下,建立一个从fastq文件到vcf注释的肿瘤全外流程。主要是bwa-gatk4.

    #建立qw 环境

    conda create -n qw 

    conda activate qw

    #安装软件

    conda install -c bioconda sra-tools -y
    conda install -c bioconda samtools -y
    conda install -c bioconda bcftools -y
    conda install -c bioconda snpeff -y
    conda install -c bioconda qualimap -y
    conda install -c bioconda fastqc -y
    conda install -c bioconda bwa -y
     conda install -c bioconda  Cutadapt -y #失败,因为需要python =3.7
    conda install -c bioconda trim_galore -y #失败,因为需要python =3.7

    conda 建立新的环境 myenv python=3.7
     conda install -c bioconda  Cutadapt -y 
    conda install -c bioconda trim_galore -y

    #首先建立bwa人源比对数据库

    http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/ 官网下载hg38和MD5sum.txt

    touch md5.txt
    vim md5.txt
    #可以检查HG38的语句。

    1c9dcaddfa41027f17cd8f7a82c7293b  hg38.fa.gz #保存。
    md5sum -c md5.txt #ok就代表没问题。
    gunzip hg38.fa.gz #解压缩

    bwa index -a bwtsw hg38.fa #建立索引

    samtools faidx hg38.fa #samtools对hg38参考基因组进行FAI索引。

    wget https://github.com/broadinstitute/picard/releases/download/2.23.9/picard.jar  #迅雷下载java -Xmx2g -jar picard.jar

    java -jar /mnt/h/softwore/picard/picard.jar CreateSequenceDictionary R=./hg38.fa O=./hg38.dict  #Picard建立字典成功。

    最后生成以下文件。

    #接下来下载GAtk4

    wget -c https://github.com/broadinstitute/gatk/releases/download/4.1.2.0/gatk-4.1.2.0.zip #conda安装GATK没作用,这个下载太慢,而且有时候下载还需要填写什么用户名。在中国,下载这个软件还挺难的。

    #接下来登录gatk官网(非常慢),迅雷下载gatk-4.1.2.0,好不容易成功。

    export PATH="/mnt/h/softwore/gatk-4.2.1.0/:$PATH" #添加环境变量激活。

    #GATK是基于Java开发的,所以在运行GATK之前,需要确保Java已经正确安装并且在系统的环境变量中配置了Java的路径。
    sudo apt install default-jre #安装java

    终于成功。

    接下来,需要获得gatk hg38 的数据库。gatk4参考文件下载:console.cloud.google.com

    因为我没有公司的辅助了,最后我在从基因学苑公众得到gatkhg38的文件。大家可以去看,如果有能力也可以自己下载。如何下载生物数据(三):GATK数据下载 

    最终,我得到了gatk4 hg38 参考数据库。

    接下来,我们就可以下载人的肿瘤全外数据开始跑了。

  • 相关阅读:
    CTFShow pwn07 (ret2libc-64bit
    @RequiredArgsConstructor介绍
    【考研线代】三. 向量
    QT—状态机框架
    go语言实现心跳机制样例
    深入理解MySQL——mysql库中表字段含义
    Linux查看哪些进程占用的系统 buffer/cache 较高 (hcache,lsof)命令
    hive中判断一个字符串是否包含另一个子串的四种方法,sql中也可用
    踩点记录-_-!!!
    某些设置由你的组织来管理
  • 原文地址:https://blog.csdn.net/weixin_69558614/article/details/137839100