md5值检查文件完整性,因为原始文件 太大,需要检查数据完成性 md5值给每个文件一个独特的id,根据id是否相等来检查文件完整性cd 01raw_data/
- md5sum *gz>md5.txt #给每个 gz文件都生成md5值,,并且输入到 md5.txt
- ls
- cat md5.txt #查看内容
- md5sum -c md5.txt #比较文件自带的md5值和自己生成的md5值是否相等。若相等则文件相等。 -c参数,check一下
- md5sum --help
- # zcat查看gzip压缩的文件
- # head -n 8 显示前8行文件内容(前8行代表2条序列)
- zcat filename.fq.gz | head -n 8
- conda activate rna
- #当前目录下
- fastqc S*gz
- ls -lh
- multiqc ./
fastqc.zip 为fastqc质控时候产生的数据
- (wes) pc@lab-pc:/project/raw_fq$ ls|grep _1.fastq.gz>gz1
- (wes) pc@lab-pc:/project/raw_fq$ ls|grep _2.fastq.gz>gz2
- (wes) pc@lab-pc:/project/raw_fq$ paste gz1 gz2>config
- (wes) pc@lab-pc:/project/raw_fq$ cat config|head
- (rna) tree119 21:48:01 ~/pipeline/download/rnaseq/01_rawdata
- $ cat trim.sh
- outdir=~/pipeline/download/rnaseq/02cleandata/
- cat config |while read id
- do
- arr=${id}
- fq1=${arr[0]}
- fq2=${arr[1]}
- nohup trim_galore -q 25 --phred33 --length 36 --stringency 3 --paired -o $outdir $fq1 $fq2 &
- done
bash trim.sh
$ ls -lh *fq.gz|cut -d" " -f 5-
下载参考基因组 下载已经建立好索引的基因组
查看下载的基因组是否正确 查看下载内容时候有误
- md5sum ./* >md5sum.txt
- md5sum -c md5sum.txt
- md5sum *.gz >md5.txt
- cat md5.txt
- md5sum -c md5.txt
wget -c
ls *gz |xargs gunzip
- $ cd reference/index
- $ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz
- $ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/mm10.tar.gz
- # 解压得到两个目录,hg19和mm10
- $ tar -zxvf *.tar.gz
genecode中参考基因组的名字 更新很快!
新建脚本来运行 制备文件准备工作
- 489 ls |grep _1.fq.gz
- 490 ls |grep _1.fq.gz >gz1
- 491 ls |grep _2.fq.gz >gz2
- 492 paste gz1 gz2 >file_for_align
- 493 cat file_for_align
- vim align.sh
- cat file_for_align |while read id
- do
- arr=${id}
- fq1=${arr[0]}
- fq2=${arr[1]}
- nohup sh -c " hisat2 -p 2 -x ~/pipeline/download/rnaseq/00ref/index_file/grch38/genome -1 ${fq1} -2 ${fq2} 2>${id%%_*}.log | samtools sort -@ 2 -o ${id%%_*}.bam " &
- done
- ls |grep .fq.gz|cut -d "_" -f 1|
- while read id; do nohup sh -c " hisat2 -p 2
- -x ~/pipeline/download/rnaseq/00ref/index_file/grch38/genome
- -1 ${id}_1_val_1.fq.gz -2 ${id}_1_val_1.fq.gz
- 2>${id%%_*}.log |
- samtools sort -@ 2 -o ${id%%_*}.bam " & done
RNA-seq(5):序列比对:Hisat2 - 简书 别人的代码
- #启动miniconda3环境(hisat2所在的环境)
- $ source ~/miniconda3/bin/activate
- #进入data目录
- $cd /mnt/f/rna_seq/aligned
- (base) kelly@DESKTOP-MRA1M1F:/mnt/f/rna_seq/aligned$
- # 小鼠和人是分开各自比对自己的index
- # 人的比对
- $ for ((i=56;i<=58;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/hg19/genome -1 /mnt/f/rna_seq/data/SRR35899${i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${i}.sra_2.fastq.gz -S SRR35899${i}.sam ;done
- # 小鼠比对
- $ for ((i=59;i<=62;i++));do hisat2 -t -x /mnt/f/rna_seq/data/reference/index/mm10/genome -1 /mnt/f/rna_seq/data/SRR35899${i}.sra_1.fastq.gz -2 /mnt/f/rna_seq/data/SRR35899${i}.sra_2.fastq.gz -S SRR35899${i}.sam; done
- #结果一共得到7个sam文件
- gtf=~/pipeline/download/rnaseq/00ref/genom_file/gencode.v41.annotation.gtf
- nohup featureCounts -T 5 -p -t exon -g gene_id -a $gtf -o all.id.txt *bam 1>counts.id.log 2>&1 &