• 生物信息学——常见的四种文件格式(fasta,fastq,sam,vcf)


    生物信息学

    生物信息学——常见的四种文件格式(fasta,fastq,sam,vcf)



    概述

    每一种生物软件都有固定的文件格式要求。了解文件格式才能快速分辨文件的功能。从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。例如当前很多分析都可以概括为从fastq到bam,从bam到vcf的过程。

    一、fasta文件格式

    • 概述:FASTA(Fast All Sequences in A)文件格式是一种常用于存储生物序列信息(如DNA、RNA或蛋白质序列)的文本格式(主要是把序列储存到数据库中的一种形式)。FASTA文件通常用于存储和共享生物学数据,如基因序列或蛋白质序列。
    • 后缀fa,fasta,fna
    • 格式
      • FASTA文件可以包含一个或多个序列,每个序列都以一个描述行和一个或多个序列数据行组成。多个序列可以依次排列在FASTA文件中。
    1. 描述行(Header Line):FASTA文件的每个序列都以一个描述行开始,以大于号(“>”)开头,用于序列标记,主要储存序列的描述信息。后面跟着该序列的名称或标识符(为了保证后续分析软件能够区分每条序列,单个序列的标识必须是唯一的)。描述行通常是单行文本,用于标识序列的来源或其他相关信息,序列ID部分可以包含注释信息。

      示例:

      >Sequence1
      
      • 1
    2. 序列数据行(Sequence Data Line):紧接着描述行的是实际的序列数据行,序列信息,既为序列本身。序列数据行包含序列的碱基(DNA或RNA)或氨基酸(蛋白质)的字符序列。序列数据行可以跨越多行,但通常为了方便起见,会将序列分为80到120个字符的行。

      示例:

      ATCGATCGATCGATCG...
      
      • 1
    • 示例

    以下是一个包含两个DNA序列的FASTA文件的示例:

    >Sequence1
    ATCGATCGATCGATCG...
    >Sequence2
    GCTAGCTAGCTAGCTA...
    
    • 1
    • 2
    • 3
    • 4
    • 适用情况:FASTA文件是广泛使用的生物信息学数据格式之一,因为它简单易读,并且适用于存储各种生物学序列的信息。这使得FASTA文件在分析和比对生物序列数据时非常有用。

    二、fastq文件格式

    • 概述:FASTQ(Fast Quality Score)文件格式是一种用于存储测序数据的文本格式,通常用于存储DNA或RNA测序结果。FASTQ文件包括序列数据和与每个碱基相关的质量分数信息,以便在测序数据分析中进行质量控制和序列比对。
    • 后缀fastq, fq
    • 格式
      • FASTQ文件中的每个序列通常由一个描述行、一个序列数据行、一个分隔行和一个质量分数行组成,这些行按顺序重复出现,以表示不同的测序读取。FASTQ文件可以包含一个或多个序列,每个序列之间以相同的格式分隔。
    1. 描述行(Header Line):FASTQ文件的每个序列都以一个描述行开始,以"@"字符开头,后面跟着该序列的名称或标识符,通常包含有关测序样本的信息。

      示例:

      @Sample_1
      
      • 1
    2. 序列数据行(Sequence Data Line):序列数据行包含DNA或RNA序列的字符序列,由A、T、C、G等表示碱基。这些字符表示测序得到的碱基序列。

      示例:

      ACGTACGTACGT...
      
      • 1
    3. 分隔行(Separator Line):分隔行通常由一个加号(“+”)开头,后面跟着与序列数据行对应的描述符。尽管分隔行中的内容与描述行相同,但分隔行的存在有助于区分不同部分。

      示例:

      +
      
      • 1
    4. 质量分数行(Quality Score Line):质量分数行包含与序列数据行中的每个碱基相关的质量分数。质量分数通常以ASCII字符表示,表示测序仪器对每个碱基的测序质量。较高的ASCII值表示更高的质量。

      示例:

      BCCDFFFFFGGGG...
      
      • 1
    • 示例
      以下是一个包含两个测序序列的FASTQ文件的示例:
    @Sample_1
    ACGTACGTACGT...
    +
    BCCDFFFFFGGGG...
    @Sample_2
    GCTAGCTAGCTA...
    +
    DDDDDEEEEEE...
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 适用情况:FASTQ文件广泛用于存储和共享测序数据,以便进行生物信息学分析、基因组学研究和生物学研究。

    三、sam(/bam)文件格式

    • 概述:SAM(Sequence Alignment/Map)文件格式是一种常用于存储DNA或RNA序列比对(alignment)结果的文本格式,通常用于描述测序数据与参考基因组的比对信息。SAM文件通常包括序列的位置、碱基配对、质量分数等信息。
      • 在SAM文件之后,通常还会生成一个二进制的BAM文件,以节省存储空间和提高数据处理速度。
    • 后缀sam(/bam)
    • 格式
    1. 文件头(Header):SAM文件的开头通常包括文件头部分,以"@“字符开头。文件头部分包含与比对信息和文件本身相关的元数据(metadata),如测序平台、参考基因组信息、比对软件等。文件头部分以”@“字符开始,后跟标识符(如"PG”、"SQ"等),然后是元数据的具体内容。

    示例:

    @HD     VN:1.6  SO:coordinate
    @SQ     SN:chr1 LN:248956422
    @RG     ID:Sample1     PL:illumina     SM:Sample1
    
    • 1
    • 2
    • 3
    1. 比对记录行(Alignment Records):SAM文件的主体部分包括比对记录,每一行代表一个测序序列的比对结果。比对记录包括多个字段,这些字段之间使用制表符(“\t”)分隔。比对记录的字段包括:

      • 序列名称(QNAME):测序序列的名称或标识符。
      • 比对标志(FLAG):描述比对的一些特征,如是否匹配、是否是原始测序序列等。
      • 参考序列名(RNAME):比对到的参考基因组上的染色体或序列名称。
      • 参考序列位置(POS):比对序列在参考基因组上的起始位置。
      • 映射质量(MAPQ):表示比对的质量得分。
      • CIGAR字符串(CIGAR):描述序列与参考基因组的对齐方式。
      • 参考序列下游位置(RNEXT):下游比对的参考序列名称。
      • 下游位置(PNEXT):下游比对的起始位置。
      • 序列数据(SEQ):比对到参考基因组上的序列数据。
      • 质量字符串(QUAL):序列的质量分数。

      示例:

      read001  16  chr1  1000  30M  *  =  1000  0  ATCG...  BCCC...
      
      • 1
    • 适用情况:SAM文件用于存储比对结果,通常由测序数据分析软件生成。它是生物信息学和基因组学研究中常用的数据格式,用于存储和共享测序数据的比对信息,以便后续分析和解释测序数据。

    四、vcf文件格式

    • 概述:VCF(Variant Call Format)文件是一种用于存储基因组变异数据的文本格式,通常用于描述DNA或RNA测序数据中的单核苷酸变异和结构变异。VCF文件包括了各种类型的变异信息,如单核苷酸多态性(SNP)、插入/删除(Indel)、复合杂变异等。
    • 后缀vcf
    • 格式
    1. 文件元数据(File Metadata):VCF文件的开头通常包括一些元数据信息,用于描述文件的属性和来源,以及变异数据的版本等。元数据行以"##"开头,可以包括信息字段、格式字段和样本信息字段等。

      示例:

      ##fileformat=VCFv4.3
      ##fileDate=20210920
      ##source=MyVariantCaller
      ##INFO=
      ##FORMAT=
      #CHROM  POS     ID       REF  ALT     QUAL  FILTER  INFO  FORMAT  Sample1  Sample2
      
      • 1
      • 2
      • 3
      • 4
      • 5
      • 6
    2. 列名(Column Headers):VCF文件的列名行包括了各个字段的名称,通常以"#“开头,后跟字段名称,包括"CHROM”(染色体名称)、“POS”(变异位置)、“ID”(变异标识符)、“REF”(参考碱基)、“ALT”(变异碱基)、“QUAL”(质量分数)、“FILTER”(过滤信息)、“INFO”(变异信息)和"FORMAT"(样本格式)等。

      示例:

      #CHROM  POS     ID       REF  ALT     QUAL  FILTER  INFO  FORMAT  Sample1  Sample2
      
      • 1
    3. 变异记录行(Variant Records):VCF文件的主体部分包括一行行的变异记录,每一行描述一个变异事件。变异记录行包括了各种字段,这些字段用制表符(“\t”)分隔,包括:

      • CHROM:变异位点所在的染色体名称。
      • POS:变异位点在染色体上的位置。
      • ID:变异的唯一标识符。
      • REF:参考碱基。
      • ALT:变异碱基。
      • QUAL:质量分数,表示变异的质量估计。
      • FILTER:过滤信息,描述变异是否通过了一些质量过滤。
      • INFO:包含有关变异的详细信息的字段。
      • FORMAT:描述每个样本中的数据格式。
      • 样本数据:每个样本的具体数据,包括基因型信息、深度信息、质量信息等。

      示例:

      1       1001    rs123    A    G    20.4   PASS   AF=0.25;DP=30   GT:AD:GQ:PL  0/1:10,20:30:50,0,60
      
      • 1
    • 适用情况:VCF文件是用于存储和共享基因组变异信息的标准格式,在基因组学研究和生物信息学分析中广泛使用。它允许研究人员记录和交换关于基因组中的变异的重要信息,以便进一步的研究和解释。VCF文件的格式规范有不同的版本,因此要确保正确解析和处理VCF文件,最好查阅文件的元数据信息以了解其格式版本。
  • 相关阅读:
    朗强:高清视频HDMI延长器的特点
    使用消息队列 queue 实现数据通信
    MessagePack 和System.Text.Json 序列化和反序列化对比
    加速释放传统企业业务潜力,S2B2B商城建设方案引领电商模式新风向
    vite如何兼容低版本浏览器
    Java异步记录日志-2022新项目
    为什么是LangChain?
    C语言实现冒泡排序
    红黑树--讲解以及详细实现过程
    【Spring Cloud】如何确定微服务项目的Spring Boot、Spring Cloud、Spring Cloud Alibaba的版本
  • 原文地址:https://blog.csdn.net/qq_45794091/article/details/128580107