• Plink数据管理, 筛选个体和变异,合并不同的遗传文件,并附加一个表型


    0.2 数据管理

    0.2.1 筛选个体和标记物(marker)
    1)筛选个体

    PLINK可用于筛选和排除某个个体,这需要一个含有个体IDs的文件。该文件必须是一个以空格/制表符分隔的文本文件,第一列是家族id,第二列是家族id内的id。

    --keep,从样本中筛选个体

    --remove,执行相反操作并从分析中排除文件列出的个体。

     plink --bfile hapmap-ceu --keep list.txt --make-bed --out selectedIndividuals
    
    • 1
    2)筛选和排除整个家族

    --keep-fam--remove-fam

    3)使用——make-bed选项时

    当你使用——make-bed选项时,缺失率和等位基因频率的阈值过滤器会自动设置为不排除任何人。您可以使用——mind——geno——maf手动指定这些过滤器来排除人。

    例如,如果您想创建一个新文件,其中只包含至少95%完整的高基因分型个体,您可以添加——mind 0.0 5命令。

    plink --bfile hapmap-ceu --make-bed --mind 0.05 --out highgeno
    
    • 1
    4) 筛选Markers

    --snps,筛选特定的SNPs

    --include,通过文件筛选,该文件包含变异的Markers名字,生成一个新文件。

    --exclude,用于从文件里删除某个变异。

    例如,筛选rs9930506

    plink --bfile hapmap-ceu --snps rs9930506 --make-bed --out rs9930506sample
    $ cat rs9930506sample.bim
    16      rs9930506       0       52387966        G       A
    
    • 1
    • 2
    • 3
    0.2.2 合并不同的遗传文件,并附加一个表型
    1)合并遗传文件
    1. 合并22个独立的染色体文件,性染色体文件以及线粒体DNA文件。
    2. 从不同的研究中合并成一个文件
    3. 在一个文件中测量的变异可能在另一个文件中无法测量,并且可能具有不同的等位基因或碱基对位置。命令- - bmerge默认参数将这些类型的不匹配设置为missing。

    --merge-mode,制定不同规范

    --merge-list,需要同时合并几个文件,就像合并特定于染色体的文件一样,请使用包含不同基因型文件名称的文件和选项- - merge-list。

    plink --bfile HapMap_founders --bmerge HapMap_nonfounders --make-bed --out merged_file
    
    • 1
    2)attaching表型

    正常的.fam文件包含表型信息

    --pheno,将表型与遗传文件整合起来,生成的.fam文件将包含表型信息

    $ head 1kg_EU_qc.fam
    0 HG00096 0 0 1 -9
    0 HG00097 0 0 2 -9
    0 HG00099 0 0 2 -9
    0 HG00100 0 0 2 -9
    0 HG00101 0 0 1 -9
    0 HG00102 0 0 2 -9
    0 HG00103 0 0 1 -9
    0 HG00104 0 0 2 -9
    0 HG00106 0 0 2 -9
    0 HG00108 0 0 1 -9
    
    $ head 1kg_EU_qc.bim
    1       rs1048488       0       760912  C       T
    1       rs3115850       0       761147  T       C
    1       rs2519031       0       793947  G       A
    1       rs4970383       0       838555  A       C
    1       rs4475691       0       846808  T       C
    1       rs1806509       0       853954  C       A
    1       rs7537756       0       854250  G       A
    1       rs28576697      0       870645  C       T
    1       rs7523549       0       879317  T       C
    1       rs3748592       0       880238  A       G
    
    $ head BMI_pheno.txt
    FID     IID     BMI
    0       HG00096 25.022827
    0       HG00097 24.853638
    0       HG00099 23.689295
    0       HG00100 27.016203
    0       HG00101 21.461624
    0       HG00102 20.673635
    0       HG00103 25.71508
    0       HG00104 25.252243
    0       HG00106 22.765049
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35

    整合文件

    plink --bfile 1kg_EU_qc --pheno BMI_pheno.txt --make-bed --out 1kg_EU_BMI
    $ head 1kg_EU_BMI.fam
    0 HG00096 0 0 1 25.0228
    0 HG00097 0 0 2 24.8536
    0 HG00099 0 0 2 23.6893
    0 HG00100 0 0 2 27.0162
    0 HG00101 0 0 1 21.4616
    0 HG00102 0 0 2 20.6736
    0 HG00103 0 0 1 25.7151
    0 HG00104 0 0 2 25.2522
    0 HG00106 0 0 2 22.765
    0 HG00108 0 0 1 23.069
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12

    参考:
    An Introduction to Statistical Genetic Data Analysis.

  • 相关阅读:
    阿里云企业邮箱基于Spring Boot快速实现发送邮件功能
    001 opencv addWeighted
    黑马程序员前端实战项目---PC端品优购(下)
    Linux入门攻坚——24、BIND编译安装、Telnet和OpenSSH
    1、python开发环境搭建与基础语法
    SQLite 知识整理
    前端——router路由
    200 天
    2.10 PE结构:重建重定位表结构
    算法 - 磁盘容量排序
  • 原文地址:https://blog.csdn.net/ziixiaoshenwang/article/details/126945684