生物信息学——常见的四种文件格式(fasta,fastq,sam,vcf)
每一种生物软件都有固定的文件格式要求。了解文件格式才能快速分辨文件的功能。从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。
描述行(Header Line):FASTA文件的每个序列都以一个描述行开始,以大于号(“>”)开头,用于序列标记,主要储存序列的描述信息。后面跟着该序列的名称或标识符(为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的)。描述行通常是单行文本,用于标识序列的来源或其他相关信息,序列ID部分可以包含注释信息。
示例:
>Sequence1
序列数据行(Sequence Data Line):紧接着描述行的是实际的序列数据行,序列信息,既为序列本身。序列数据行包含序列的碱基(DNA或RNA)或氨基酸(蛋白质)的字符序列。序列数据行可以跨越多行,但通常为了方便起见,会将序列分为80到120个字符的行。
示例:
ATCGATCGATCGATCG...
以下是一个包含两个DNA序列的FASTA文件的示例:
>Sequence1
ATCGATCGATCGATCG...
>Sequence2
GCTAGCTAGCTAGCTA...
描述行(Header Line):FASTQ文件的每个序列都以一个描述行开始,以"@"字符开头,后面跟着该序列的名称或标识符,通常包含有关测序样本的信息。
示例:
@Sample_1
序列数据行(Sequence Data Line):序列数据行包含DNA或RNA序列的字符序列,由A、T、C、G等表示碱基。这些字符表示测序得到的碱基序列。
示例:
ACGTACGTACGT...
分隔行(Separator Line):分隔行通常由一个加号(“+”)开头,后面跟着与序列数据行对应的描述符。尽管分隔行中的内容与描述行相同,但分隔行的存在有助于区分不同部分。
示例:
+
质量分数行(Quality Score Line):质量分数行包含与序列数据行中的每个碱基相关的质量分数。质量分数通常以ASCII字符表示,表示测序仪器对每个碱基的测序质量。较高的ASCII值表示更高的质量。
示例:
BCCDFFFFFGGGG...
@Sample_1
ACGTACGTACGT...
+
BCCDFFFFFGGGG...
@Sample_2
GCTAGCTAGCTA...
+
DDDDDEEEEEE...
示例:
@HD VN:1.6 SO:coordinate
@SQ SN:chr1 LN:248956422
@RG ID:Sample1 PL:illumina SM:Sample1
比对记录行(Alignment Records):SAM文件的主体部分包括比对记录,每一行代表一个测序序列的比对结果。比对记录包括多个字段,这些字段之间使用制表符(“\t”)分隔。比对记录的字段包括:
示例:
read001 16 chr1 1000 30M * = 1000 0 ATCG... BCCC...
文件元数据(File Metadata):VCF文件的开头通常包括一些元数据信息,用于描述文件的属性和来源,以及变异数据的版本等。元数据行以"##"开头,可以包括信息字段、格式字段和样本信息字段等。
示例:
##fileformat=VCFv4.3
##fileDate=20210920
##source=MyVariantCaller
##INFO=
##FORMAT=
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2
列名(Column Headers):VCF文件的列名行包括了各个字段的名称,通常以"#“开头,后跟字段名称,包括"CHROM”(染色体名称)、“POS”(变异位置)、“ID”(变异标识符)、“REF”(参考碱基)、“ALT”(变异碱基)、“QUAL”(质量分数)、“FILTER”(过滤信息)、“INFO”(变异信息)和"FORMAT"(样本格式)等。
示例:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2
变异记录行(Variant Records):VCF文件的主体部分包括一行行的变异记录,每一行描述一个变异事件。变异记录行包括了各种字段,这些字段用制表符(“\t”)分隔,包括:
示例:
1 1001 rs123 A G 20.4 PASS AF=0.25;DP=30 GT:AD:GQ:PL 0/1:10,20:30:50,0,60