大家好,我是邓飞。
在GWAS分析中,我们挖掘到了一些显著性的位点,如何确定这些位点是不是假阳性呢?我们可以通过LDblock分析并进行可视化进行判断。
我们知道GWAS分析中是依据SNP与性状控制的基因存在LD,所以如果位点显著,则周围应该有一些位点都显著,或者说位点所在的区域LD值比较高,能形成Block,才比较靠谱。否则,显著性为点形单影只,并且没有形成Block,极大可能是假阳性!
下面介绍如何通过基因型数据和GWAS分析结果,绘制LDblock。
要实现的下面的图:
软件介绍:(这两款神奇是一人开发,大神呀!)
github链接:https://github.com/BGI-shenzhen/
InVCF
InPlink
InPlink
网址:https://github.com/BGI-shenzhen/LDBlockShow
中文说明书:https://github.com/hewm2008/LDBlockShow/blob/main/LDBlockShow_Manual_Chinese.pdf
安装代码:
git clone https://github.com/hewm2008/LDBlockShow.git
cd LDBlockShow ; chmod 755 configure ; ./configure;
make;
mv LDBlockShow bin/; # [rm *.o]
数据:
file.vcf
代码:
这里,绘制染色体1,位置区间是:49670000:49780000
LDBlockShow -InVCF file.vcf -OutPut re5 -Region 1:49670000:50680000 -OutPng -SeleVar 1
结果:
vcf文件:Test.vcf.gz
命令:
LDBlockShow -InVCF Test.vcf.gz -OutPut re1 -Region chr11:24100000:24200000 -OutPng -SeleVar 1
结果文件:
re1.blocks.gz re1.png re1.site.gz re1.svg re1.TriangleV.gz
考虑GWAS的结果,加入参数:-InGWAS gwas.pvalue
vcf文件:Test.vcf.gz
GWAS结果文件:三列,Chr, Position, Pvalue,没有行头
$ head gwas.pvalue
chr11 24142640 0.00009
chr11 24142660 1.02e-9
chr11 24142669 1e-9
chr11 24142692 0.5
chr11 24142724 0.6
chr11 24142756 0.001
chr11 24142760 0.006
命令:
LDBlockShow -InVCF Test.vcf.gz -OutPut re2 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1
结果:
re2.blocks.gz re2.png re2.site.gz re2.svg re2.TriangleV.gz
结果中包括热图,block图和GWAS图合并起来了。
上面的图,可以通过ShowLDSVG
软件,进一步优化:
ShowLDSVG -InPreFix re2 -OutPut temp -InGWAS gwas.pvalue -Cutline 7 -ShowNum -PointSize 3
结果:
相比较上图,增加了注释的信息。
文件需要:
$ cat In.gff
chr11 maker mRNA 24142646 24142738 . + . ID=GeneName
chr11 maker five_prime_UTR 24142646 24142652 . - . Parent=GeneName
chr11 maker CDS 24142653 24142673 . + 2 Parent=GeneName
chr11 maker CDS 24142718 24142729 . + 2 Parent=GeneName
chr11 maker five_prime_UTR 24142730 24142738 . + . Parent=GeneName
命令:
LDBlockShow -InVCF Test.vcf.gz -OutPut re3 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1 -InGFF In.gff
也可以增加SNP的名称:
$ cat Spe.snp
chr11 24142660
chr11 24142669 SpeA
chr11 24142760 SpeB
命令:
LDBlockShow -InVCF Test.vcf.gz -OutPut re3 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1 -InGFF In.gff -SpeSNPName Spe.snp
可以通过-TopSite
在GWAS图中显示最显著位点与其它位点的LD关系。
LDBlockShow -InVcf Test.vcf.gz -OutPut re4 -InGWAS gwas.pvalue -InGFF In.gff -Region chr11:24100000:24200000 -OutPng -SeleVar 3 -TopSite
下图中,最显著的位点为四边形,其它颜色,红色表示LD高,其它颜色表示LD低。在上图的基础上,增加了最显著位点与其它位点的LD情况。
参考:https://github.com/hewm2008/LDBlockShow/blob/main/LDBlockShow_Manual_Chinese.pdf