• 如何获得基因名与基因类型的对应关系——下载GTF文件 基因注释


    GTF文件是用于保存基因结构信息的文件格式。它是基于通用特征格式(GFF)的制表符分隔文本格式,但包含一些特定的附加基因信息。
    1.打开GENECODE网站 ,下载GTF文件

    https://www.gencodegenes.org/human/release_29.html

    image.png

    image.png

    2.传入Linux(以shell为例)

    image.png


    3.解压

    gunzip gencode.v29.annotation.gtf.gz 
    

    image.png

    image.png

    4.less 查看

    less -S gencode.v29.annotation.gtf
    

    image.png

    观察得第14列为基因类型,第18列为基因名,取。
    重导向为gencode.v25.annotation.gtf.gene3type

    awk '{if(!NF || /^#/){next}}1' gencode.v25.annotation.gtf|sed 's/"//g'| sed 's/;//g'|awk '{print $14,$18}' > gencode.v25.annotation.gtf.gene3type
    

    5.less 一下新文件

    image.png


    1.存在以K开头 2.存在重复
    故去K,去重复

    uniq gencode.v25.annotation.gtf.gene3type |grep '^[^K]' |less -S
    

    image.png


    可在R打开使用
    更方便的方法是直接在Linux下载

    wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz
    

    image.png


    参考来源:生信技能树

    友情链接:

    课程分享
    生信技能树全球公益巡讲
    https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g
    B站公益74小时生信工程师教学视频合辑
    https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw
    招学徒:
    https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw

    欢迎关注公众号:青岛生信菜鸟团

    对于人和小鼠而言,NCBI, Ensembl等数据库都保存了对应的基因注释信息,不同数据库中的信息来源和可信度都不一样,gencode综合HAVANA和Ensembl 数据库中的信息,通过实验手段加以验证,从而构建一个高质量的注释信息数据库。网址如下

    https://www.gencodegenes.org/

    官网提供了GTF和GFF3两种格式的文件以供下载,示意如下

    每种类型的文件提供了3种区域

    CHR

    ALL

    PRI

    对于基因组而言,包括了chromsome,unplaced_scaffold, alt_scaffold, patch等序列,这些序列上都存在对应的基因。CHR指的是染色体级别的信息,包括细胞核内的染色体和线粒体;ALL包括所有的序列,PRI只包含染色体和unplaced_scaffold序列上的信息。官方推荐,使用CHR级别的信息。

    文件中采用level来表示注释信息的可信度,目前共包括3个level。

    level1代表可靠的注释信息,有直接的实验证据支持的注释信息;level2代表的是经过人工校对的注释信息,取HAVANA和Ensembl注释信息中一致的注释信息;level3指的是软件注释的信息,通常是Ensemble中和HAVANA不一致的注释信息。

    如果想要得到更高可信度的注释信息,可以根据level进行过滤,只选择1和2这两个层级的注释信息。

    文件中共包含的基因和转录本的个数统计如下

    1. human


    2. mouse


    在文件中,会给出基因或者转录本的类型信息,解释如下

    protein_coding
    蛋白编码基因

    lincRNA
    位于基因间区的长链非编码RNA

    non_coding
    文献中证实的非编码RNA


    完整的基因类型信息详见以下链接

    https://www.gencodegenes.org/gencode_biotypes.html
    ————————————————
    版权声明:本文为CSDN博主「生信修炼手册」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/weixin_43569478/article/details/108079240

  • 相关阅读:
    (221)Verilog HDL: Fsm3onehot
    hiredis C库调用的工具会话类封装。
    SpringBoot 整合文件上传 elment Ui 上传组件
    互动营销类游戏开发小程序游戏开发
    ZoomIt最简单方便的屏幕画图工具操作手册
    java 企业工程管理系统软件源码 自主研发 工程行业适用
    DispatcherServlet初始化之遍历HandlerMethod
    23 种设计模式大纲
    当鼠标移入一个元素时、其它隐藏部分的元素展示出来【如何将隐藏的操作展示、将只读信息变为可输入的内容】
    计网个人作业02
  • 原文地址:https://blog.csdn.net/qq_52813185/article/details/127745527