ClinVar数据库中记录了大量的人类变体,和这些变体导致的致病或健康或无意义,所以要使用机器学习来做一个错义变体的研究需要使用带这个数据集
从NCBI官网上下载的话可以下载相应的变体,但问题是不是VCF格式,我们需要使用annovar这个注释软件对变体进行注释。
何为注释,获得变体的额外信息,用这些结构化的额外信息来作为输入。
ClinVar数据库的学习和解读可以参考----12--人类遗传变异神库ClinVar数据库详解-临床决策研究大数据山西省重点实验室 (sxmu.edu.cn)
山西大学这个科普文章
ANNOVAR下载和使用建议在linux环境下使用,
下载好包之后,解压,需要运行脚本的话,要在脚本前面加上绝对路径,否则会出现bash-commnd not found的错误
下载ClinVar,可以使用一些连接,通过FTP---Index of /pub/clinvar/vcf_GRCh38
将变体数据全部下载,然后进行挑选。
使用annovar,需要先将vcf转换为avniput格式,在进行注释