码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 202310-MetaPhlAn4安装和使用方法-Anaconda3- centos9 stream


    MetaPhlAn 4是一种基于DNA序列的微生物组分析工具,它能够从宏基因组测序数据中识别和分离微生物的组成。以下是安装和使用MetaPhlAn 4的步骤:

    安装MetaPhlAn 4:

    先看原站点和仓库,暂时访问不了的可以隔一段时间再试:

    MetaPhlAn4 – The Huttenhower Lab

    GitHub - biobakery/MetaPhlAn: MetaPhlAn is a computational tool for profiling the composition of microbial communities from metagenomic shotgun sequencing data

    裸机环境,手动安装

    1. 安装依赖项:

    MetaPhlAn 4需要Python 3.7以上的版本(建议使用Anaconda环境),同时还需要安装Biopython、pandas和numpy等包。可以使用pip命令进行安装,例如:

    pip install biopython pandas numpy
    

    2. 下载MetaPhlAn 4程序:

    从MetaPhlAn 4的官方网站(https://github.com/biobakery/MetaPhlAn)下载最新的MetaPhlAn 4程序,并解压缩到指定目录中。

    数据库地址(建议手动下载,地址及文件见下方)

    要配置MetaPhlAn4最新数据库,您可以按照以下步骤进行操作:

    1. 下载最新的MetaPhlAn4数据库文件,可以在MetaPhlAn4官方网站上下载。

    2. 解压缩下载的MetaPhlAn4数据库文件,得到一个包含多个文件的目录。

    3. 打开MetaPhlAn4配置文件,通常为"metaphlan_database.cfg",可以在MetaPhlAn4的安装目录中找到。

    4. 在配置文件中,找到"bowtie2db"和"mpa_pkl"这两个参数,并将它们的值分别改为MetaPhlAn4数据库目录下的"bowtie2"和"mpa"文件的路径。

    5. 保存配置文件。

    使用conda环境安装(推荐)

    本示例使用anaconda3,

    以下是在anaconda3中安装MetaPhlAn4的步骤:

    步骤1:安装conda

    如果您尚未安装conda,请使用以下命令在终端中安装:

    到这里去找安装包吧,什么版本都有,这里下载linux64最新版

    https://repo.anaconda.com/archive

    1. ###下载安装包
    2. wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh
    3. ###安装
    4. sh Anaconda3-2023.09-0-Linux-x86_64.sh
    5. ###先进去后会要让同意许可协议,注意太快可能错过跳出,到后面慢一点向下翻
    6. #到最后询问是否同意时输入yes
    7. ##遇到按键太快跳过的话重新执行安装命令再次进入
    8. #在配置安装目录时要注意输入自己想要安装的目录

    步骤2:创建conda环境

    打开终端并输入以下命令,创建一个名为“metaphlan4”的conda环境:

    1. #创建metaphlan4的conda环境
    2. conda create -n metaphlan4 python=3.7
    3. mamba create -n metaphlan4 python=3.7

    步骤3:激活conda环境

    输入以下命令,激活“metaphlan4”环境:

    1. #激活指定环境,任选一种,建议mamba
    2. conda activate metaphlan4
    3. mamba activate metaphlan4
    4. source activate metaphlan4

    步骤4:安装MetaPhlAn4

    使用以下命令安装MetaPhlAn4:

    1. #在激活环境中安装metaphlan
    2. conda install -c bioconda -c conda-forge metaphlan
    3. #mamba也挺不错的,速度还快,自己配置即可
    4. mamba install -c bioconda -c conda-forge metaphlan
    5. #需要一点时间,等待完成

    步骤5:测试MetaPhlAn4

    输入以下命令测试安装是否成功:

    metaphlan --version
    

    如果可以正确显示版本信息,则安装成功。

    步骤6:配置MetaPhlAn数据库

    默认情况下可以使用metaphlan --install命令可以安装数据库,按照官方建议添加--bowtie2db参数,并指定conda目录外的专用数据库目录/mnt/metaphlan4_db,大家按需求修改。指定conda外目录的好处就是conda环境目录容量小一些,重新安装时还可以设置此目录作为数据库目录就行,不用重新下载和配置了。

    1. metaphlan --install --bowtie2db /mnt/metaphlan4_db
    2. # MetaPhlAn自动下载的数据库有可能不是最新的,大家可以清空指定文件夹,
    3. # 或将已有数据文件全部移到其他备份目录
    4. # 然后编辑一个mpa_latest
    5. cd /mnt/metaphlan4_db
    6. vim mpa_latest
    7. mpa_vJun23_CHOCOPhlAnSGB_202307
    8. ## 这个文件不要有空格不要有空行,就单独这个版本的名称独占一行即可。

    可下载版本见ftp: Index of /biobakery4/metaphlan_databases

     写入mpa_latest文件中的仅如下面红线标注的版本名称,都是日期结尾

    mpa_vJun23_CHOCOPhlAnSGB_202307

    mpa_vOct22_CHOCOPhlAnSGB_202212

     开始后会自动下载文件和运行bowtie索引

    有时候下载速度慢,可能引起失败,建议手动下载最新数据库:

    地址在这里:http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/

    下载这几个文件:

    http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/bowtie2_indexes/mpa_vOct22_CHOCOPhlAnSGB_202212_bt2.md5

    http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/bowtie2_indexes/mpa_vOct22_CHOCOPhlAnSGB_202212_bt2.tar http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vOct22_CHOCOPhlAnSGB_202212.md5

    http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vOct22_CHOCOPhlAnSGB_202212.tar

    http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vOct22_CHOCOPhlAnSGB_202212_marker_info.txt.bz2

    http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_vOct22_CHOCOPhlAnSGB_202212_species.txt.bz2

    http://cmprod1.cibio.unitn.it/biobakery4/metaphlan_databases/mpa_latest

    下载完成后将所有下载文件放入下面目录(根据自己安装目录找ananconda3的位置,后面路径都一样):

     anaconda3/envs/mpa/lib/python3.7/site-packages/metaphlan/metaphlan_databases

    后面第一次去运行metaphlan去注释你的序列的时候会自动建库

    使用MetaPhlAn 4:

    1. 准备输入文件:MetaPhlAn 4需要输入FASTQ或FASTA格式的文件。如果是PE读取,需要将两个序列文件合并为一个文件。

    2. 运行MetaPhlAn 4:在终端中进入MetaPhlAn 4的安装目录,并运行以下命令:

    python3 metaphlan --input_file example.fastq --output_file output.txt

    其中,--input_file参数指定输入文件的路径和名称,--output_file参数指定输出文件的路径和名称。

    3. 查看结果:MetaPhlAn 4的输出文件包含了每个微生物的相对丰度和物种注释信息。可以使用文本编辑器或者Excel等软件打开输出文件进行查看和分析。

    conda环境下使用MetaPhlAn4

    1. ##激活conda环境
    2. source activate metaphlan4
    3. #直接使用压缩包文件运行,建议使用nohup运行,因为运行时间比较长
    4. #nohup
    5. nohup metaphlan f1.fastq.gz,r2.fastq.gz --bowtie2out f1r2.bowtie2.bz2 --nproc 60 --input_type fastq >f1r2_mtphlan.txt 2>&1 &
    6. #直接运行
    7. metaphlan f1.fastq.gz,r2.fastq.gz --bowtie2out f1r2.bowtie2.bz2 --nproc 60 --input_type fastq -o f1r2_mtphlan.txt
    8. ####其中 f1.fastq.gz和r2.fastq.gz分别为样品的双端序列的两个压缩文件,最终我们想要的是f1r2_mtphlan.txt

    结果解释:

    1. ###前面几行已被注释,使用MetaPhlAn工具合并时会自动过滤掉
    2. #anaconda3/envs/metaphlan4/bin/metaphlan 1.fastq,2.fastq --bowtie2out 1.bt2.bz2 --nproc 30 --input_type fastq -o 1.profiled.txt
    3. #76553269 reads processed
    4. #SampleID Metaphlan_Analysis
    5. #clade_name NCBI_tax_id relative_abundance additional_species
    6. k__Bacteria 2 99.92666
    7. k__Archaea 2157 0.07334
    8. k__Bacteria|p__Proteobacteria 2|1224 89.13284
    9. k__Bacteria|p__Actinobacteria 2|201174 8.93442
    10. k__Bacteria|p__Bacteroidetes 2|976 1.83546

    私房菜:

    1. ###使用merge_metaphlan_tables.py将所有样品的注释结果合并(需要激活metaphlan4的conda环境)
    2. merge_metaphlan_tables.py *.txt > merged_abundance_table.txt
    3. ###使用下面语句从合并表中提取物种种水平下的物种注释信息
    4. grep -E '(s__)|(clade_name)' merged_abundance_table.txt |grep -v 't__'|sed 's/^.*s__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_species.txt
    5. ###使用下面语句从合并表中提取物种属水平下的物种注释信息
    6. grep -E '(g__)|(clade_name)' merged_abundance_table.txt |grep -v 's__'|sed 's/^.*g__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_genus.txt
    7. ###使用下面语句从合并表中提取物种科水平下的物种注释信息
    8. grep -E '(f__)|(clade_name)' merged_abundance_table.txt |grep -v 'g__'|sed 's/^.*f__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_family.txt
    9. ###使用下面语句从合并表中提取物种目水平下的物种注释信息
    10. grep -E '(o__)|(clade_name)' merged_abundance_table.txt |grep -v 'f__'|sed 's/^.*o__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_order.txt
    11. ###使用下面语句从合并表中提取物种纲水平下的物种注释信息
    12. grep -E '(c__)|(clade_name)' merged_abundance_table.txt |grep -v 'o__'|sed 's/^.*c__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_class.txt
    13. ###使用下面语句从合并表中提取物种门水平下的物种注释信息
    14. grep -E '(p__)|(clade_name)' merged_abundance_table.txt |grep -v 'c__'|sed 's/^.*p__//g'|awk '{$2=null;print}'|sed 's/\ \ /\ /g'|sed 's/\ /\t/g' > merged_abundance_phylum.txt

    这里有最新2023关于MetaPhlAn分析的workshop内容,大家可以先看一下,基本与上面内容一致。

    MetaPhlAn Workshop on Genomics 2023 · biobakery/MetaPhlAn Wiki · GitHub

    注意事项:

    1. MetaPhlAn 4需要消耗大量的计算资源,建议在具有足够内存和计算能力的计算机上运行。

    2. MetaPhlAn 4的结果可能会受到样本质量、参考基因组库的完整性和准确性等多种因素的影响。可以根据需要选择合适的参考基因组库进行分析,以获得更准确的结果。

    Metaphlan分析结果的使用建议:

    1. 了解Metaphlan输出格式:Metaphlan输出文件包括两个文件,即.txt和.txt.bak。其中,.txt文件是包含分类结果和相对丰度值的文本文件,.txt.bak文件是二进制文件存储的序列信息。

    2. 解释Metaphlan输出结果:Metaphlan输出文件提供了各个分类单元的相对丰度值,这些单元包括细菌、古菌、真菌和叶绿体等。通过观察这些相对丰度值,可以了解样本中各个分类单元的富集度和活跃度。

    3. 与其他工具结合使用:Metaphlan结果可以与其他宏基因组分析工具结合使用,如PICRUSt、STAMP和LEfSe等,这些工具可以进一步分析样本中的生物学差异。

    4. 结果可视化:Metaphlan的结果可以用不同的可视化工具展示,如Circos、R、STAMP和Phinch等。这些工具可以帮助用户更直观地理解样品之间的差异以及分类单元的富集度。

    总之,Metaphlan是一个强大的宏基因组分析工具,可以帮助用户快速了解样品中的微生物组成。将其结果与其他工具结合使用,可以更深入地挖掘样品差异,为后续的实验设计提供重要参考。

    关于宏基因组学相关分析大家还可以参考下面这些脚本和分析流程:

    WoM2023-Shotgun Metagenomic宏基因组 Data Аnalysis with bioBakery,on MetaPhlAn, StrainPhlAn, and cMD-CSDN博客文章浏览阅读332次,点赞10次,收藏4次。MetaPhlAn4安装方法:202310-宏基组学物种分析工具-MetaPhlAn4安装和使用方法-Anaconda3- centos9 stream-CSDN博客文章浏览阅读1.1k次。MetaPhlAn 4是一种基于DNA序列的微生物组分析工具,它能够从宏基因组测序数据中识别和分离微生物的组成。https://blog.csdn.net/zrc_xiaoguo/article/details/134871717?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522170200580516800185874313%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=170200580516800185874313&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~rank_v31_ecpm-3-134871717-null-null.nonecase&utm_term=MetaPhlAn&spm=1018.2226.3001.4450

  • 相关阅读:
    vue3+ts插槽的使用
    吃完饭后,到底是躺着、坐着、站着还是运动?看完终于不纠结了
    想考阿里云ACP认证,网上买题库靠谱吗?
    vue和webpack所依赖的node.js进程信息process及环境变量process.env
    计算机毕业设计Java小说网站(系统+源码+mysql数据库+lw文档)
    Linux:vi和vim编辑器
    pythonGUI(二)基本元素之二
    Appium环境搭建及元素定位
    【基本数据结构 三】线性数据结构:栈
    android接入微信API相关细节
  • 原文地址:https://blog.csdn.net/zrc_xiaoguo/article/details/134066043
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号