查看了一下博客和文献,把我的理解总结一下。
PRS是多基因风险评分,下面介绍一下它处理的步骤。
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7612115/
数据包括:
这部分数据,主要是大样本得到的特定性状的GWAS结果,GWAS summary result,包括snp,染色体,物理位置,maf,effect(或者OR),P值等信息,类似:
连续性状:
或者:
二分类性状:
或者:
这部分数据就是我们自己搜集的数据,包括:
这部分,包括:
具体而言,在进行处理数据前,需要确定性状的遗传特性h2snp 要大于0.05,文件中确定定位基因,对maf和去填充准确性得分进行质控,两个数据基因组版本一致,对于基因型不匹配的可以通过flip翻转,重复的snp删除,性染色体删除,重复样本删除,对于基础数据和目标数据中有交叉的个人删除,亲缘关系近的也删除,确保基础数据和目标数据独立,等操作。
包括根据LD去调整,比如修剪(clumping),然后计算Beta校正值,以及调整P值,计算PRS值。
具体的做法:
这部分,主要是在目标数据中进行测试,查看计算的PRS和实际的表型匹配度如何,计算准确性。
通过测试集的验证,就可以选出PRS模型,进行大样本的预测。