• PRS中增加PCA 1-10如何操作


    问题来源:

    1. 什么是PRS分析

    PRS就是多基因风险评分模型,它根据GWAS已经挖掘的结果(GWAS结果,gwas summary),然后使用自己的数据,选择合适的位点,进行个体的风险得分预测。

    所以它的步骤:

    • 收集已有的gwas summary结果
    • 整理自己的snp分型和表型数据
    • 进行PRS计算

    2. 为何要加入PC1-10

    这里的PC是PCA,就是主成分分析的意思,PC1-10,是值PCA1,PCA2……PCA10。理论上,有多少个个体就有多少个PCA,但是PCA解释百分比是逐个下降的,一般GWAS分析中考虑前三个就够了,这里考虑前10个,是确保万无一失的做法。

    那么为何要考虑PCA1-10呢?

    这个问题相关的问题,为何要考虑性别、年龄,既往病史,高血压,血糖等指标呢?

    这些问题在模型中都是作为协变量,目的是为了矫正模型,可以得到更准确的PRS(即排除其它因素,只有SNP影响的得分)。

    3. 如何操作呢?

    首先,你要计算PCA的值,然后加入到协变量中,关于GWAS中的协变量,我写的内容比较多,可以参考:
    GWAS分析中协变量的区分(性别?PCA?不同品种?)

    1,使用plink做pca分析,提取前10个结果

     plink --bfile 1kg_hm3_qc --pca 10
    
    
    • 1
    • 2

    看一下PCA前10个的结果:

    2,在PRS计算中,加入到模型中

    这里,直接用–cov指定就行,第一列是FID,和IID,plink生成的结果可以直接使用。

    Covariate:
    –cov | -C Covariate file. First column should be FID and
    the second column should be IID. If --ignore-fid
    is set, first column should be IID
    –cov-col | -c Header of covariates. If not provided, will use
    all variables in the covariate file. By adding
    @ in front of the string, any numbers within [
    and ] will be parsed. E.g. @PC[1-3] will be
    read as PC1,PC2,PC3. Discontinuous input are also
    supported: @cov[1.3-5] will be parsed as
    cov1,cov3,cov4,cov5
    –cov-factor Header of categorical covariate(s). Dummy variable
    will be automatically generated. Any items in
    –cov-factor must also be found in --cov-col
    Also accept continuous input (start with @).

    上面就是PRS计算加入PC1-10的方法。

  • 相关阅读:
    (第一天:)1.字典赋值默认值、字典解压赋值
    ASEMI肖特基二极管1N5822参数,1N5822特征,1N5822应用
    高校邮件系统盗号问题处置经验
    OpenCV-17制作LOGO小练习
    2022秋季信息安全实验1
    一场由Integer引发的血案
    1006 Sign In and Sign Out
    外包的水有多深?腾讯15k的外包测试岗能去吗?
    内存映射mmap函数的理解
    南京邮电大学高级语言程序设计实验六(结构体与文件实验)
  • 原文地址:https://blog.csdn.net/yijiaobani/article/details/127828666