• ncbi-genome-download批量下载基因组数据


    1. ncbi-genome-download 的下载和安装

    ncbi-genome-download 是一个可以直接从NCBI上批量下载序列的软件,支持下载多种格式

    利用 conda 对其直接安装 参考

    1. #创建环境
    2. conda create -n ncbi_genome_download
    3. #激活环境
    4. conda activate ncbi_genome_download
    5. # 安装
    6. conda install -c bioconda ncbi-genome-download

    2.常用的参数

    • -s:选择数据库(genbank,refseq),默认是refseq数据库
    • -F:需要下载基因组的格式,可以多种格式同时下载,用逗号隔开,默认是genbank格式
    • -l:序列组装程度,可以多种格式同时下载,用逗号隔开
    • -g:需要下载序列的属,后面要指定类群,比如bacteria
    • S:下载的具体的菌种名称,用逗号隔开,也可以写入一个文件中,一行一个菌种名称
    • -o:输出的文件名称
    • -r:失败时重新连接的次数,默认是0次
    • --flat-output:将下载的文件输入到一个目录中,不创建新的子文件(即下载的数据在指定的文件夹中,每个 Taxonomy ID 一个压缩文件)

    参数详情:

    1. (ncbi_genome_download) [hgzhong@head01 ~]$ ncbi-genome-download -h
    2. usage: ncbi-genome-download [-h] [-s {refseq,genbank}] [-F FILE_FORMATS]
    3. [-l ASSEMBLY_LEVELS] [-g GENERA] [--genus GENERA]
    4. [--fuzzy-genus] [-S STRAINS] [-T SPECIES_TAXIDS]
    5. [-t TAXIDS] [-A ASSEMBLY_ACCESSIONS]
    6. [--fuzzy-accessions] [-R REFSEQ_CATEGORIES]
    7. [--refseq-category REFSEQ_CATEGORIES] [-o OUTPUT]
    8. [--flat-output] [-H] [-P] [-u URI] [-p N] [-r N]
    9. [-m METADATA_TABLE] [-n] [-N] [-v] [-d] [-V]
    10. [-M TYPE_MATERIALS]
    11. groups
    12. positional arguments:
    13. groups The NCBI taxonomic groups to download (default: all).
    14. A comma-separated list of taxonomic groups is also
    15. possible. For example: "bacteria,viral"Choose from:
    16. ['all', 'archaea', 'bacteria', 'fungi',
    17. 'invertebrate', 'metagenomes', 'plant', 'protozoa',
    18. 'vertebrate_mammalian', 'vertebrate_other', 'viral']
    19. optional arguments:
    20. -h, --help show this help message and exit
    21. -s {refseq,genbank}, --section {refseq,genbank}
    22. NCBI section to download (default: refseq)
    23. -F FILE_FORMATS, --formats FILE_FORMATS
    24. Which formats to download (default: genbank).A comma-
    25. separated list of formats is also possible. For
    26. example: "fasta,assembly-report". Choose from:
    27. ['genbank', 'fasta', 'rm', 'features', 'gff',
    28. 'protein-fasta', 'genpept', 'wgs', 'cds-fasta', 'rna-
    29. fna', 'rna-fasta', 'assembly-report', 'assembly-
    30. stats', 'translated-cds', 'all']
    31. -l ASSEMBLY_LEVELS, --assembly-levels ASSEMBLY_LEVELS
    32. Assembly levels of genomes to download (default: all).
    33. A comma-separated list of assembly levels is also
    34. possible. For example: "complete,chromosome". Choose
    35. from: ['all', 'complete', 'chromosome', 'scaffold',
    36. 'contig']
    37. -g GENERA, --genera GENERA
    38. Only download sequences of the provided genera. A
    39. comma-seperated list of genera is also possible. For
    40. example: "Streptomyces coelicolor,Escherichia coli".
    41. (default: [])
    42. --genus GENERA Deprecated alias of --genera
    43. --fuzzy-genus Use a fuzzy search on the organism name instead of an
    44. exact match.
    45. -S STRAINS, --strains STRAINS
    46. Only download sequences of the given strain(s). A
    47. comma-separated list of strain names is possible, as
    48. well as a path to a filename containing one name per
    49. line.
    50. -T SPECIES_TAXIDS, --species-taxids SPECIES_TAXIDS
    51. Only download sequences of the provided species NCBI
    52. taxonomy IDs. A comma-separated list of species taxids
    53. is also possible. For example: "52342,12325".
    54. (default: [])
    55. -t TAXIDS, --taxids TAXIDS
    56. Only download sequences of the provided NCBI taxonomy
    57. IDs. A comma-separated list of taxids is also
    58. possible. For example: "9606,9685". (default: [])
    59. -A ASSEMBLY_ACCESSIONS, --assembly-accessions ASSEMBLY_ACCESSIONS
    60. Only download sequences matching the provided NCBI
    61. assembly accession(s). A comma-separated list of
    62. accessions is possible, as well as a path to a
    63. filename containing one accession per line.
    64. --fuzzy-accessions Use a fuzzy search on the entry accession instead of
    65. an exact match.
    66. -R REFSEQ_CATEGORIES, --refseq-categories REFSEQ_CATEGORIES
    67. Only download sequences of the provided refseq
    68. categories [refrerence, representative, na]. A comma-
    69. separated list of categories is also possible.
    70. (default: download all categories)
    71. --refseq-category REFSEQ_CATEGORIES
    72. Deprecated alias for --refseq-categories
    73. -o OUTPUT, --output-folder OUTPUT
    74. Create output hierarchy in specified folder (default:
    75. /data/home/hgzhong)
    76. --flat-output Dump all files right into the output folder without
    77. creating any subfolders.
    78. -H, --human-readable Create links in human-readable hierarchy (might fail
    79. on Windows)
    80. -P, --progress-bar Create a progress bar for indicating the download
    81. progress
    82. -u URI, --uri URI NCBI base URI to use (default:
    83. https://ftp.ncbi.nih.gov/genomes)
    84. -p N, --parallel N Run N downloads in parallel (default: 1)
    85. -r N, --retries N Retry download N times when connection to NCBI fails
    86. (default: 0)
    87. -m METADATA_TABLE, --metadata-table METADATA_TABLE
    88. Save tab-delimited file with genome metadata
    89. -n, --dry-run Only check which files to download, don't download
    90. genome files.
    91. -N, --no-cache Don't cache the assembly summary file in
    92. /data/home/hgzhong/.cache/ncbi-genome-download.
    93. -v, --verbose increase output verbosity
    94. -d, --debug print debugging information
    95. -V, --version print version information
    96. -M TYPE_MATERIALS, --type-materials TYPE_MATERIALS
    97. Specifies the relation to type material for the
    98. assembly (default: any). "any" will include assemblies
    99. with no relation to type material value defined, "all"
    100. will download only assemblies with a defined value. A
    101. comma-separated list of relatons. For example:
    102. "reference,synonym". Choose from: ['any', 'all',
    103. 'type', 'reference', 'synonym', 'proxytype',
    104. 'neotype'] .

    3. 批量下载基因组数据

    3.1 根据属名下载

    将需要下载的属名放置至一个txt文档(换行),利用参数--genera  pant_download.txt  plant

    3.2 根据物种的 ID下载

    将需要下载的物种的分类 ID 放置至一个txt文档(换行),利用参数--taxids my_taxids.txt 

    再加上参数 --assembly-levels 指定下载的基因组的不同类型(包括contig,scaffold,chromosome,all,compete)

    不同物种的 taxonomy id查询地址 taxonomy id query

    例如 Oryza sativa 的 taxonomy id为4530

    3.3 根据物种拉丁名下载

    当你有一系列菌种需要下载时,你可以将这一系列菌种名保存到一个txt文件里,每个菌种名为一行,文件名为genera.txt

    希望下载这些菌种基因组中的cds序列,并将下载的每个文件放在MyGenera文件夹中,在MyGenera目录下进入终端,运行:

    ncbi-genome-download --genera genera.txt bacteria --flat-output --formats cds-fasta

    然后,每个物种均会自动下载好指定的基因组类型序列

    这样genera文本中的所有菌种的基因组cds序列就一条代码下载完成了。

    注意:genera.txt文本中有10个菌种名,而下载了13个文件,说明有的菌种名下面有来自不同上传者提供的基因组信息(即一对多)

    如下图,我要下载GCAlist.txt文本中的基因组序列的fasta文件,并保存在Assembly文件夹中,在Assembly目录下进入终端,运行:

    ncbi-genome-download --assembly-accessions GCAlist.txt bacteria --section genbank --for

    4.帮助查询

    查询地址 帮助文档

    • 查看版本
    ncbi-genome-download -V
    • 查看帮助
    ncbi-genome-download -h
    • 语法格式
    ncbi-genome-download [optional arguments] groups

    optional arguments为可选参数,详细介绍见下文

    groups为物种选择,可选['all', 'archaea', 'bacteria', 'fungi', 'invertebrate', 'metagenomes', 'plant', 'protozoa', 'vertebrate_mammalian', 'vertebrate_other', 'viral'],可选项即为NCBI的FTP下载目录Index of/genomes/refseqIndex of/genomes/genbank下的内容

    • 可选参数
    --section

    指定下载的数据库,可选['refseq', 'genbank'],默认refseq

    --formats

    指定下载的文件格式,可选['genbank', 'fasta', 'rm', 'features', 'gff', 'protein-fasta', 'genpept', 'wgs', 'cds-fasta', 'rna-fna', 'rna-fasta', 'assembly-report', 'assembly-stats', 'all'],默认genbank

    --assembly-levels

    指定下载的基因组组装水平,可选['all', 'complete', 'chromosome', 'scaffold', 'contig'],默认all

    --genera

    根据菌种名下载,后面可接想要下载的菌种名,如--genera 'Rhizobium alamii'

    --taxids

    根据NCBI taxonomy ID下载,后面可接想要下载的菌种的taxonomy ID,如--taxids '492774'

    (还以Rhizobium alamii举例,通过NCBI Taxonomy Browser可以查询到该菌种的txid为492774)

    --assembly-accessions

    根据assembly accession下载,后面可接想要下载的菌种的assembly accession,如--assembly-accessions ‘GCF_000799895.1’

    ⚠️注意:因为默认下载的数据库是refseq,所以选择RefSeq assembly accession下载时无需加--section参数即可正常下载,如果要根据GenBank assembly accession下载,请再加上--section genbank。

    --output-folder

    指定下载目录,后面可接你想要存放的下载目录,如--output-folder ~/Downloads(下载到当前用户的下载文件夹中)

    --flat-output

    直接将下载的文件放入指定文件夹中,不创建子文件夹

    详情参考 ncbi-genome-download工具

    5. 核查下载情况

    由于利用ncbi-genome-download下载物种的基因组数据时存在未成功下载(后续需自己手动下载)的情况,所有需要将当前目录下的a.genomic.fna.gz文件进行汇总

    5.1 利用grep命令查找

    随后将sequence_name.txt文件导入excel表中,与自己需要下载的物种进行vlookup函数匹配,找出未成功下载的基因组序列的物种名

    grep ".*genomic.fna.gz” ./present dictionary > sequence_name.txt

    5.2 将.txt文件转换成.bat文件

    另一种方法,比较简单实用:

  • 相关阅读:
    北京何氏眼科专家:缓解眼干涩,为眼睛“加油”很重要!
    [Power Query] 删除错误/空值
    Ubuntu20.04换源教程、解决主机与虚拟机之间进行文本复制粘贴问题
    两年CRUD,二本毕业,备战两个月面试阿里,侥幸拿下offer定级P6
    用于构建用户界面的JavaScript库--->React
    笔记36:CNN的多通道卷积到底是什么样的
    【毕业设计】基于深度学习的人脸专注度检测计算系统 - opencv python cnn
    CRGDFPASSC,CAS号:166184-23-2
    Java数据结构之二叉树的构建与遍历
    等保测评一体机是什么
  • 原文地址:https://blog.csdn.net/hgz2020/article/details/133756324