• LDblock绘制连锁不平衡和单体型图


    大家好,我是邓飞。

    GWAS分析中,我们挖掘到了一些显著性的位点,如何确定这些位点是不是假阳性呢?我们可以通过LDblock分析并进行可视化进行判断。

    我们知道GWAS分析中是依据SNP与性状控制的基因存在LD,所以如果位点显著,则周围应该有一些位点都显著,或者说位点所在的区域LD值比较高,能形成Block,才比较靠谱。否则,显著性为点形单影只,并且没有形成Block,极大可能是假阳性!

    下面介绍如何通过基因型数据和GWAS分析结果,绘制LDblock。

    要实现的下面的图:

    • 最下方的热图是两两SNP之间的LD值,越高越红,比较红的区域构成一个Block(用黑线连起来)
    • 如果提供gff文件,可以显示基因的上游、下游、外显子、内含子区域
    • 上面是位点的曼哈顿图,是区域性的曼哈顿图
    • 位点之间,也可以根据LD值进行可视化,以最显著的位点为四方形,其它位点与其LD值的大小呈现不同的颜色


    软件介绍:(这两款神奇是一人开发,大神呀!)
    github链接:https://github.com/BGI-shenzhen/

    • A:整体上宏观上用:PopLDdecay 软件 ,软件己经生物信息Bioinformatics杂志发表online
    • B: 从局部上查看用:LDBlockShow软件, 软件已经正式被 briefings in bioinformatics (影响分子8.99)的杂志接收

    1. 数据准备

    • vcf格式的数据,InVCF
    • plink二进制文件,InPlink
    • plink文本文件,InPlink

    2. 软件安装

    网址:https://github.com/BGI-shenzhen/LDBlockShow

    中文说明书:https://github.com/hewm2008/LDBlockShow/blob/main/LDBlockShow_Manual_Chinese.pdf

    安装代码:

            git clone https://github.com/hewm2008/LDBlockShow.git
            cd LDBlockShow ; chmod 755 configure  ;  ./configure;
            make;
            mv LDBlockShow  bin/;    #     [rm *.o]
    
    • 1
    • 2
    • 3
    • 4

    3. 软件测试

    数据:
    file.vcf

    代码:
    这里,绘制染色体1,位置区间是:49670000:49780000

    LDBlockShow -InVCF file.vcf -OutPut re5 -Region 1:49670000:50680000 -OutPng -SeleVar 1
    
    
    • 1
    • 2

    结果:

    在这里插入图片描述

    4. 进阶:Heatmap + block

    vcf文件:Test.vcf.gz

    在这里插入图片描述

    命令:

    LDBlockShow -InVCF Test.vcf.gz -OutPut re1 -Region chr11:24100000:24200000 -OutPng -SeleVar 1
    
    
    • 1
    • 2

    结果文件:

    re1.blocks.gz  re1.png  re1.site.gz  re1.svg  re1.TriangleV.gz
    
    • 1

    5. 进阶:Heatmap + block + GWAS

    考虑GWAS的结果,加入参数:-InGWAS gwas.pvalue

    vcf文件:Test.vcf.gz

    在这里插入图片描述
    GWAS结果文件:三列,Chr, Position, Pvalue,没有行头

    $ head gwas.pvalue
    chr11	24142640	0.00009
    chr11	24142660	1.02e-9
    chr11	24142669	1e-9
    chr11	24142692	0.5
    chr11	24142724	0.6
    chr11	24142756	0.001
    chr11	24142760	0.006
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9

    命令:

    LDBlockShow -InVCF Test.vcf.gz -OutPut re2 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1
    
    • 1

    结果:

    re2.blocks.gz  re2.png  re2.site.gz  re2.svg  re2.TriangleV.gz
    
    • 1


    结果中包括热图,block图和GWAS图合并起来了。

    上面的图,可以通过ShowLDSVG软件,进一步优化:

    • -Cutline,阈值定义为7
    • -ShowNum,显示LD值
    • -PointSize,显示点大小
     ShowLDSVG -InPreFix re2 -OutPut temp -InGWAS gwas.pvalue -Cutline 7 -ShowNum -PointSize 3
    
    
    • 1
    • 2

    结果:

    6. Heatmap + block + GWAS + Annotation

    相比较上图,增加了注释的信息。

    文件需要:

    • vcf,vcf格式的文件
    • gwas_pvalue,三列的gwas结果(Chr,Position,Pvalue),无行头
    • gff文件,注释文件
    $ cat In.gff
    chr11	maker	mRNA	24142646	24142738	.	+	.	ID=GeneName
    chr11	maker	five_prime_UTR	24142646	24142652	.	-	.	Parent=GeneName
    chr11	maker	CDS	24142653	24142673	.	+	2	Parent=GeneName
    chr11	maker	CDS	24142718	24142729	.	+	2	Parent=GeneName
    chr11	maker	five_prime_UTR	24142730	24142738	.	+	.	Parent=GeneName
    
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7

    命令:

    LDBlockShow -InVCF Test.vcf.gz -OutPut re3 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1 -InGFF In.gff
    
    
    • 1
    • 2

    也可以增加SNP的名称:

    $ cat Spe.snp
    chr11	24142660
    chr11	24142669	SpeA
    chr11	24142760	SpeB
    
    
    • 1
    • 2
    • 3
    • 4
    • 5

    命令:

    LDBlockShow -InVCF Test.vcf.gz -OutPut re3 -Region chr11:24100000:24200000 -InGWAS gwas.pvalue -OutPng -SeleVar 1 -InGFF In.gff -SpeSNPName Spe.snp
    
    
    • 1
    • 2

    7. 进阶:LDblock+GWAS+Annotation+Locuszoom

    可以通过-TopSite在GWAS图中显示最显著位点与其它位点的LD关系。

    LDBlockShow -InVcf Test.vcf.gz -OutPut re4 -InGWAS gwas.pvalue -InGFF In.gff -Region chr11:24100000:24200000 -OutPng -SeleVar 3 -TopSite
    
    
    • 1
    • 2

    下图中,最显著的位点为四边形,其它颜色,红色表示LD高,其它颜色表示LD低。在上图的基础上,增加了最显著位点与其它位点的LD情况。

    参考:https://github.com/hewm2008/LDBlockShow/blob/main/LDBlockShow_Manual_Chinese.pdf

  • 相关阅读:
    五表联筛:从五个表格中筛选出出现过两次及两次以上的人名
    上位机图像处理和嵌入式模块部署(f407 mcu中的单独上位机烧录方法)
    Springboot+Easyexcel将数据写入模板文件并导出Excel
    Redis缓存
    实时时钟和日历电路芯片MS85163/MS85163M
    【C/C++】结构体内存分配问题
    java计算机毕业设计特色农产品供需销售系统源程序+mysql+系统+lw文档+远程调试
    二进制部署k8s v1.22.15(玩就玩最难的)
    【zotero】解决换新电脑后PDF打不开
    用于时间触发的嵌入式软件的IDE
  • 原文地址:https://blog.csdn.net/yijiaobani/article/details/127498536