问题来源:

PRS就是多基因风险评分模型,它根据GWAS已经挖掘的结果(GWAS结果,gwas summary),然后使用自己的数据,选择合适的位点,进行个体的风险得分预测。
所以它的步骤:
这里的PC是PCA,就是主成分分析的意思,PC1-10,是值PCA1,PCA2……PCA10。理论上,有多少个个体就有多少个PCA,但是PCA解释百分比是逐个下降的,一般GWAS分析中考虑前三个就够了,这里考虑前10个,是确保万无一失的做法。
那么为何要考虑PCA1-10呢?
这个问题相关的问题,为何要考虑性别、年龄,既往病史,高血压,血糖等指标呢?
这些问题在模型中都是作为协变量,目的是为了矫正模型,可以得到更准确的PRS(即排除其它因素,只有SNP影响的得分)。
首先,你要计算PCA的值,然后加入到协变量中,关于GWAS中的协变量,我写的内容比较多,可以参考:
GWAS分析中协变量的区分(性别?PCA?不同品种?)
1,使用plink做pca分析,提取前10个结果
plink --bfile 1kg_hm3_qc --pca 10
看一下PCA前10个的结果:

2,在PRS计算中,加入到模型中
这里,直接用–cov指定就行,第一列是FID,和IID,plink生成的结果可以直接使用。
Covariate:
–cov | -C Covariate file. First column should be FID and
the second column should be IID. If --ignore-fid
is set, first column should be IID
–cov-col | -c Header of covariates. If not provided, will use
all variables in the covariate file. By adding
@ in front of the string, any numbers within [
and ] will be parsed. E.g. @PC[1-3] will be
read as PC1,PC2,PC3. Discontinuous input are also
supported: @cov[1.3-5] will be parsed as
cov1,cov3,cov4,cov5
–cov-factor Header of categorical covariate(s). Dummy variable
will be automatically generated. Any items in
–cov-factor must also be found in --cov-col
Also accept continuous input (start with @).
上面就是PRS计算加入PC1-10的方法。