• 1行代码提取6种TCGA表达矩阵和临床信息


    本文首发于公众号:医学和生信笔记

    医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

    之前的2行代码提取表达矩阵由于大家的R语言水平参差不齐,导致很多新手会报错,于是我把前面的代码打包为一个脚本,1行代码就可以了!

    脚本已上传到QQ群,需要的小伙伴加群下载即可~

    只需要1行代码就可以获取分别获取mRNA和lncRNA的counts/fpkm/tpm总计6种类型类型的表达矩阵以及临床信息,表达矩阵是标准形式,行是基因,列是样本,行名是gene symbol。

    使用这种方法有4个前提条件:

    • TCGAbiolinks包的版本必须要在2.25.1以上
    • 需要使用TCGAbiolinks下载的数据或者按照这个教程下载的数据:可能是最适合初学者的TCGA下载教程
    • 必须按照这篇教程构建正确的路径:手动下载的TCGA数据也可以用TCGAbiolinks包整理
    • 脚本必须和GDCdata放在一个路径下

    使用方法

    加载需要的R包:

    library(TCGAbiolinks)
    library(SummarizedExperiment)
    library(tidyverse)
    

    加载脚本"getTCGAexpr.r",这个脚本必须和GDCdata位于同一个位置。

    脚本位置必须对!

    加载这个脚本:

    source("getTCGAexpr.r")
    

    使用函数,需要提供TCGA的癌症简称,比如:TCGA-LUSC。

    getTCGAexpr(project = "TCGA-LUSC")
    
    ##--------------------------------------
    ##o GDCquery: Searching in GDC database
    ##--------------------------------------
    ##Genome of reference: hg38
    ##--------------------------------------------
    ##oo Accessing GDC. This might take a while...
    ##--------------------------------------------
    ##ooo Project: TCGA-LUSC
    ##--------------------
    ##oo Filtering results
    ##--------------------
    ##ooo By data.type
    ##ooo By workflow.type
    ##----------------
    ##oo Checking data
    ##----------------
    ##ooo Checking if there are duplicated cases
    ##ooo Checking if there are results for the query
    ##-------------------
    ##o Preparing output
    ##-------------------
    ##|=====================================================|100%                      ##Completed after 16 s 
    ##Starting to add information to samples
    ## => Add clinical information to samples
    ## => Adding TCGA molecular information from marker papers
    ## => Information will have prefix 'paper_' 
    ##lusc subtype information from:doi:10.1038/nature11404
    ##Available assays in SummarizedExperiment : 
    ##  => unstranded
    ##  => stranded_first
    ##  => stranded_second
    ##  => tpm_unstrand
    ##  => fpkm_unstrand
    ##  => fpkm_uq_unstrand
    ##=> Saving file: output_expr/TCGA-LUSC_expr.rdata
    ##=> File saved
    

    全程不到一分钟即可!

    完成后会在当前目录多出一个output_expr文件夹,里面就是6个表达矩阵和临床信息:

    完成后会多出一个文件夹

    output_expr文件夹里面就是提取好的信息:

    提取好的表达矩阵和临床信息

    • TCGA-LUSC_expr.rdata:原始的se对象,所有信息都是从这里面提取的;
    • TCGA-LUSC_clinical.rdata:TCGA-LUSC的临床信息;
    • TCGA-LUSC_lncRNA_expr_counts.rdata:lncRNA的counts矩阵;
    • TCGA-LUSC_lncRNA_expr_fpkm.rdata:lncRNA的fpkm矩阵;
    • TCGA-LUSC_lncRNA_expr_tpm.rdata:lncRNA的tpm矩阵;
    • TCGA-LUSC_mRNA_expr_counts.rdata:mRNA的counts矩阵;
    • TCGA-LUSC_mRNA_expr_fpkm.rdata:mRNA的fpkm矩阵;
    • TCGA-LUSC_mRNA_expr_tpm.rdata:mRNA的tpm矩阵;

    表达矩阵示例:

    lncRNA的counts矩阵

    mRNA的counts矩阵

    mRNA的tpm矩阵

    临床信息

    本文首发于公众号:医学和生信笔记

    医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

    本文由mdnice多平台发布

  • 相关阅读:
    3.17 haas506 2.0开发教程-example - 低功耗模式 (2.2版本接口有更新)
    使用easyexcel模板导出的两个坑(Map空数据列错乱和不支持嵌套对象)
    shell的if-else判断结构
    URL endoce 和 decode
    【数字实验室】在时序逻辑中使用阻塞赋值会怎么样?
    Vue06/v-model组件使用、Vue获取DOM元素ref和$refs及子组件实列
    C语言典型例题32
    echarts将展示全天的数据,如一天的电费,一个停车场一天的饱和度等问题
    微信小程序之后台首页交互
    UE5 虚幻引擎,打开空间蓝图,出现未识别的选项卡
  • 原文地址:https://blog.csdn.net/Ayue0616/article/details/127110193