Plink数据管理，筛选个体和变异，合并不同的遗传文件，并附加一个表型

0.2 数据管理

0.2.1 筛选个体和标记物（marker）

1）筛选个体

PLINK可用于筛选和排除某个个体，这需要一个含有个体IDs的文件。该文件必须是一个以空格/制表符分隔的文本文件，第一列是家族id，第二列是家族id内的id。

--keep，从样本中筛选个体

--remove，执行相反操作并从分析中排除文件列出的个体。

 plink --bfile hapmap-ceu --keep list.txt --make-bed --out selectedIndividuals
1

2）筛选和排除整个家族

--keep-fam 和--remove-fam

3）使用`——make-bed`选项时

当你使用——make-bed选项时，缺失率和等位基因频率的阈值过滤器会自动设置为不排除任何人。您可以使用——mind、——geno和——maf手动指定这些过滤器来排除人。

例如，如果您想创建一个新文件，其中只包含至少95%完整的高基因分型个体，您可以添加——mind 0.0 5命令。

plink --bfile hapmap-ceu --make-bed --mind 0.05 --out highgeno
1

4) 筛选Markers

--snps，筛选特定的SNPs

--include，通过文件筛选，该文件包含变异的Markers名字，生成一个新文件。

--exclude，用于从文件里删除某个变异。

例如，筛选rs9930506

plink --bfile hapmap-ceu --snps rs9930506 --make-bed --out rs9930506sample
$ cat rs9930506sample.bim
16      rs9930506       0       52387966        G       A
1
2
3

0.2.2 合并不同的遗传文件，并附加一个表型

1）合并遗传文件

合并22个独立的染色体文件，性染色体文件以及线粒体DNA文件。
从不同的研究中合并成一个文件
在一个文件中测量的变异可能在另一个文件中无法测量，并且可能具有不同的等位基因或碱基对位置。命令- - bmerge默认参数将这些类型的不匹配设置为missing。

--merge-mode，制定不同规范

--merge-list，需要同时合并几个文件，就像合并特定于染色体的文件一样，请使用包含不同基因型文件名称的文件和选项- - merge-list。

plink --bfile HapMap_founders --bmerge HapMap_nonfounders --make-bed --out merged_file
1

2）attaching表型

正常的.fam文件包含表型信息

--pheno，将表型与遗传文件整合起来，生成的.fam文件将包含表型信息

$ head 1kg_EU_qc.fam
0 HG00096 0 0 1 -9
0 HG00097 0 0 2 -9
0 HG00099 0 0 2 -9
0 HG00100 0 0 2 -9
0 HG00101 0 0 1 -9
0 HG00102 0 0 2 -9
0 HG00103 0 0 1 -9
0 HG00104 0 0 2 -9
0 HG00106 0 0 2 -9
0 HG00108 0 0 1 -9

$ head 1kg_EU_qc.bim
1       rs1048488       0       760912  C       T
1       rs3115850       0       761147  T       C
1       rs2519031       0       793947  G       A
1       rs4970383       0       838555  A       C
1       rs4475691       0       846808  T       C
1       rs1806509       0       853954  C       A
1       rs7537756       0       854250  G       A
1       rs28576697      0       870645  C       T
1       rs7523549       0       879317  T       C
1       rs3748592       0       880238  A       G

$ head BMI_pheno.txt
FID     IID     BMI
0       HG00096 25.022827
0       HG00097 24.853638
0       HG00099 23.689295
0       HG00100 27.016203
0       HG00101 21.461624
0       HG00102 20.673635
0       HG00103 25.71508
0       HG00104 25.252243
0       HG00106 22.765049
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35

整合文件

plink --bfile 1kg_EU_qc --pheno BMI_pheno.txt --make-bed --out 1kg_EU_BMI
$ head 1kg_EU_BMI.fam
0 HG00096 0 0 1 25.0228
0 HG00097 0 0 2 24.8536
0 HG00099 0 0 2 23.6893
0 HG00100 0 0 2 27.0162
0 HG00101 0 0 1 21.4616
0 HG00102 0 0 2 20.6736
0 HG00103 0 0 1 25.7151
0 HG00104 0 0 2 25.2522
0 HG00106 0 0 2 22.765
0 HG00108 0 0 1 23.069
1
2
3
4
5
6
7
8
9
10
11
12

参考：
An Introduction to Statistical Genetic Data Analysis.

相关阅读:
阿里云企业邮箱基于Spring Boot快速实现发送邮件功能
001 opencv addWeighted
黑马程序员前端实战项目---PC端品优购（下）
Linux入门攻坚——24、BIND编译安装、Telnet和OpenSSH
1、python开发环境搭建与基础语法
SQLite 知识整理
前端——router路由
200 天
2.10 PE结构：重建重定位表结构
算法 - 磁盘容量排序

原文地址：https://blog.csdn.net/ziixiaoshenwang/article/details/126945684

Plink数据管理， 筛选个体和变异，合并不同的遗传文件，并附加一个表型