码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 通过基因ID从GFF文件中获取基因位置


    由于OMIM上的位置是参考基因组GRch38,所以在进行hg19版本的annovar注释时,需要转化为hg19的,根据OMIM数据库上的提示,我们可以从gff文件中获取对应的位置。(说一下个人想法:我们看到要进行位置转化,首先想到是用UCSC上的liftover进行转化,或者是NCBI上的remap进行转化,但是据说这个在2023年11月就要停止了。如果对整个数据的查看,就会发现位置不是唯一性的,里面很多同一个位置对应好几个MIM number或者好几个Entrez Gene ID,可能是这个位置太长了,里面对应的基因太多,所以如果我们简单的进行位置转化,在注释的时候,根据位置匹配,就会出现多个基因,最好的是根据OMIM数据库给的提示操作,把对应的位置范围缩小,才能更精准)

    从gff文件根据MIM number或者Entrez Gene ID来获取位置,尝试使用R,python(biopython、bcbio-gff)。R是因为安装包容易报错,bcbio-gff可以解析gff文件,但是因为gff文件太大,python在处理时速度慢,均放弃。也尝试过在线网站bioDBnet转化,结果为GRch38,也放弃。最后用shell处理。

    cut -f1 id.txt |sed 1d | sed '/^$/d'| while read i;do zgrep $i GRCh37_latest_genomic.gff.gz;done | perl -alne '{next unless $F[2] eq "gene"; ;/ID=gene:(.*?);/; print "$F[0]\t$F[3]\t$F[4]\t$F[8]"}'

    id.txt文件的列名:MIM number  Gene Symbols Entrez Gene ID,先提取第一列(MIM number ),然后去掉第一行,再去掉空行,之后对每行MIM number循环读取,在GFF文件中寻找(而且只要GFF中gene的信息),并将相关信息匹配提取出来,因为还需要核对,所以输出内容是整行完整的。

  • 相关阅读:
    【Milvus的安装和使用】
    学习笔记——交通安全分析13
    yml文件没有变成配置文件图标(IDEA)
    【视频教程】基于Fragstats的土地利用景观格局分析应用
    深度学习推理显卡设置
    springboot+vue.js+Elementui在线课程管理系统
    来自中科院的一次java技术面经历
    为什么 Spring和IDEA 都不推荐使用 @Autowired 注解
    CSS面试题
    快速上手Linux核心命令(六):Linux的文本编辑器vi和vim
  • 原文地址:https://blog.csdn.net/Cassiel60/article/details/133759895
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号