PLINK可用于筛选和排除某个个体,这需要一个含有个体IDs的文件。该文件必须是一个以空格/制表符分隔的文本文件,第一列是家族id,第二列是家族id内的id。
--keep,从样本中筛选个体
--remove,执行相反操作并从分析中排除文件列出的个体。
plink --bfile hapmap-ceu --keep list.txt --make-bed --out selectedIndividuals
--keep-fam 和--remove-fam
——make-bed选项时当你使用——make-bed选项时,缺失率和等位基因频率的阈值过滤器会自动设置为不排除任何人。您可以使用——mind、——geno和——maf手动指定这些过滤器来排除人。
例如,如果您想创建一个新文件,其中只包含至少95%完整的高基因分型个体,您可以添加——mind 0.0 5命令。
plink --bfile hapmap-ceu --make-bed --mind 0.05 --out highgeno
--snps,筛选特定的SNPs
--include,通过文件筛选,该文件包含变异的Markers名字,生成一个新文件。
--exclude,用于从文件里删除某个变异。
例如,筛选rs9930506
plink --bfile hapmap-ceu --snps rs9930506 --make-bed --out rs9930506sample
$ cat rs9930506sample.bim
16 rs9930506 0 52387966 G A
- - bmerge默认参数将这些类型的不匹配设置为missing。--merge-mode,制定不同规范
--merge-list,需要同时合并几个文件,就像合并特定于染色体的文件一样,请使用包含不同基因型文件名称的文件和选项- - merge-list。
plink --bfile HapMap_founders --bmerge HapMap_nonfounders --make-bed --out merged_file
正常的.fam文件包含表型信息
--pheno,将表型与遗传文件整合起来,生成的.fam文件将包含表型信息
$ head 1kg_EU_qc.fam
0 HG00096 0 0 1 -9
0 HG00097 0 0 2 -9
0 HG00099 0 0 2 -9
0 HG00100 0 0 2 -9
0 HG00101 0 0 1 -9
0 HG00102 0 0 2 -9
0 HG00103 0 0 1 -9
0 HG00104 0 0 2 -9
0 HG00106 0 0 2 -9
0 HG00108 0 0 1 -9
$ head 1kg_EU_qc.bim
1 rs1048488 0 760912 C T
1 rs3115850 0 761147 T C
1 rs2519031 0 793947 G A
1 rs4970383 0 838555 A C
1 rs4475691 0 846808 T C
1 rs1806509 0 853954 C A
1 rs7537756 0 854250 G A
1 rs28576697 0 870645 C T
1 rs7523549 0 879317 T C
1 rs3748592 0 880238 A G
$ head BMI_pheno.txt
FID IID BMI
0 HG00096 25.022827
0 HG00097 24.853638
0 HG00099 23.689295
0 HG00100 27.016203
0 HG00101 21.461624
0 HG00102 20.673635
0 HG00103 25.71508
0 HG00104 25.252243
0 HG00106 22.765049
整合文件
plink --bfile 1kg_EU_qc --pheno BMI_pheno.txt --make-bed --out 1kg_EU_BMI
$ head 1kg_EU_BMI.fam
0 HG00096 0 0 1 25.0228
0 HG00097 0 0 2 24.8536
0 HG00099 0 0 2 23.6893
0 HG00100 0 0 2 27.0162
0 HG00101 0 0 1 21.4616
0 HG00102 0 0 2 20.6736
0 HG00103 0 0 1 25.7151
0 HG00104 0 0 2 25.2522
0 HG00106 0 0 2 22.765
0 HG00108 0 0 1 23.069
参考:
An Introduction to Statistical Genetic Data Analysis.