• TCGA下载和表达矩阵整理:最适合初学者的教程


    本文首发于公众号:医学和生信笔记

    医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

    这篇推文适合初学者看,大佬酌情阅读!

    从打开网址开始教你一步一步的下载TCGA的数据,图文并茂,真的是详细的不能再详细了!

    如果你看完了这篇还不会下载TCGA的数据,那不是你疯就是我疯!

    为什么我说最适合初学者,因为使用这个方法下载数据后,只需要2行代码即可完成表达矩阵的整理,同时包含counts/fpkm/tpm,自带gene symbol,而且自带和表达矩阵完全对应的详细临床信息,无需另外下载!

    在下载TCGA数据之前,你可能需要一些背景知识,比如TCGA的33癌症简称和英文名,拷贝数变异、单核苷酸多态性、甲基化等的英文,建议自己百度下哦~

    下面正式开始:

    首先你要到这个网址:https://portal.gdc.cancer.gov/,进入下面这个界面,如果你打不开这个页面,那你的下载大概率也会有问题的,因为这个对网络有要求!

    alt

    打开这个页面后,你需要选择你想要下载的东西,这个数据库下载东西逻辑是很清晰的,比如你想要下载TCGA的直肠癌的常规转录组的mRNA数据,首先你要点击Repository,下面箭头指的两个地方,任意点一个就行,都是一样的:

    alt

    点完了之后会进入到这个界面:

    alt

    这里你只要关注左侧这一栏的东西就好了,你现在的需求是下载TCGA的直肠癌的常规转录组的mRNA数据,所以你需要先找到TCGA的直肠癌,点击Cases

    重点来了!!!这里是决定你能不能用2行代码整理表达矩阵的关键!!

    有的教程会让你在Primary Site中找到直肠癌,勾选它,像下图这样,但我建议你直接跳过这一步!!!

    alt
    alt

    但是我建议你直接跳过上面这一步!!直接在Project里面选中TCGA-READ即可,不要在Primary Site中勾选任何东西!!

    alt

    这样Cases这边的选项就选好了,其他东西就不用选了,比如Disease Type/Gender/Age at Diagnosis等等

    下一步就是到Files里面选择数据类型,你想要的转录组的的mRNA数据,所以先点击Files,然后在下面的Data Category里面选择transcriptome profiling,在Data Type里面选择Gene Expression Quantification

    alt

    OK,到这里你就选择好你想要的数据了:TCGA的直肠癌的常规转录组的mRNA数据,其他的都不用选了,你可以看到一共177个文件!

    下一步,把你的所有数据添加到购物车,也就是点击右侧Add All Files to Cart,点完之后你的右上角购物车会出现数字,就像下面这样:

    alt

    加入购物车之后,点击Cart,进入下面的下载界面,这个界面内容很多,比如167个cases,177个files,747.58M,还有各种下载选项,都给你标出来了。

    alt

    此时,你点击Download,下面会出现Manifest和Cart的选项。

    你如果选择Cart,会下载一个压缩包,里面就是你选择好的177个文件。点击Cart会下载下图中标号1的文件,解压后得到标号2的文件,把2继续解压,就得到标号为3的文件夹:alt

    打开这个文件夹,里面就是你的178个文件,因为多了一个Manifest文件。

    alt

    如果你的网络不错,直接下载Cart其实是非常简单的方法,比如我这里177个文件,700多M,不到10分钟就下载完了!:smile:下载完成后你如果需要整理成表达矩阵,那你还需要点击Metadata,下载一个metadata文件!

    alt

    这个metadata是json格式的,里面记录着文件名和样本名的对应关系,整理成表达矩阵需要这个文件。

    如果你选择了Manifest,那么会下载一个manifest文件(这个文件内容和上面通过cart方式下载得到的MANIFEST文件内容完全一样):

    alt

    这个文件里面包含了你选择好的177个文件的信息,有了它,你就可以用GDC官方推荐的gdc client工具下载了,后面我们会说怎么用这个文件进行下载。如果你要整理成表达矩阵,那你还需要点击Metadata,下载一个metadata文件!

    除此之外,你还可以在这个界面下载临床信息,点击Clinical,下载TSV格式的临床数据。

    alt

    其他的数据用处不大,可以不用下载。

    下面说说如何用GDC官方推荐的gdc client工具进行下载。

    首先,需要到gdc client的下载地址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool,下载这个软件,往下拉即可看到各个平台的版本:

    alt

    左边的是命令行版本,右边是图形化界面,可以用鼠标点点点的那种!

    我先给大家演示下点点点的版本,适合不会写代码的人!根据你的系统,下载合适的版本,比如我是Windows,我就下载了下面这个:

    alt

    然后解压它,安装它,打开它,就会出现下面这个界面:

    alt

    点击那个Select Manifest File,会让你选择你的manifest文件,也就是上一步下载的那个,选好之后会出现下面的界面:

    alt

    稍等片刻,如果你的网络没问题就会变成下面这个界面,然后你点击右下角的Download就可以下载了(下载前你可以先设置下,见下一张图),下载过程会告诉你一共多少几个,下载中几个,失败几个,停止几个,完成几个等,非常清晰明了:

    alt

    下载前可以先进行一些设置:比如更改你的保存路径,每次下载的大小,自动重连的次数等等,改好之后记得点击Save Settings

    alt

    都设置好之后,点击Download即可愉快的下载了!

    如果有失败的,会在下面显示,直接选中继续下载即可:

    alt

    下载完之后也是177个文件:

    image-20220912190839901
    image-20220912190839901

    这个方法本质上和命令行版本的gdc client没有区别!

    这个点点点的图形化界面真的太香了,这不比命令行版本的gdc client香多了么!还要命令行那么复杂的东西干啥??

    根据这个教程下载后,可以无缝衔接另一篇教程:只要2行代码即可整理成表达矩阵!

    TCGA傻瓜版下载教程未完待续,下一次说说怎么用gdc client的命令行进行下载,后面还会介绍如何整理成表达矩阵!

    万里长城第一步,这才开始!

    本文由 mdnice 多平台发布

  • 相关阅读:
    Optimize(程序优化)
    五分钟k8s实战-使用Ingress
    电子科大软件系统架构设计——系统需求分析
    Spring注解补充(一)
    强 蛰伏20多年,终于登顶成为第一名
    413 Request Entity Too Large
    Mysql基础知识篇(二)
    移动平台 GPU 架构扫盲
    关注我,我们一起彻底学会java
    【LeetCode每日一题】——119.杨辉三角 II
  • 原文地址:https://blog.csdn.net/Ayue0616/article/details/126921271