• 初探生物信息数据库——生信原理第一次实验报告(华农)


    初探生物信息数据库——生信原理第一次实验报告(华农)

    1 实验目的

    熟悉NCBI数据库Entrez检索系统,会使用关键词检索NCBI、UnitProtKB、PubMed等数据库,能理解检索结果页面各条目含义。

    2 实验题目与解答

    2.1 水稻抗病基因Xa21

    2.1.1 详细题目

    水稻抗病基因Xa21有多少条序列具有全长CDS,分别由多少碱基构成?编码多少个氨基酸?选择修改时间最早的一条序列,指出该基因exon和intron的位置。该基因编码的蛋白质有多少个氨基酸残基?该蛋白质可能位于细胞中哪个位置?是否有三维结构信息?

    2.1.2 解答过程

    2.1.2.1 高级检索Xa21

    为了找到水稻基因Xa21有多少条续流具有全长CDS,我们需要在高级搜索中将Organism限定为rice,此外在也需要将Xa21和complete CDS添加到Title中。

    图1 在高级搜索中添加关键词及限定关键词类型

    图1 在高级搜索中添加关键词及限定关键词类型

    2.1.2.2 分析碱基构成及编码氨基酸个数

    由检索结果(图二)可知,共有三条序列具有全长CDS,从每一条序列名称的第二行可以看到其碱基数,点击protein选项可以查看其氨基酸个数。
    图2 Xa21的检索结果

    图2 Xa21的检索结果

    图3 点击Protein选项后的蛋白质GeneBank数据

    图3 点击Protein选项后的蛋白质GeneBank数据

    三条具有全长CDS的序列的碱基数以及编码氨基酸数目如下表:

    表1 三条序列的碱基和氨基酸数目
    Accession碱基数氨基酸数
    AB21279846231025
    AB21279946231025
    U3713339211025

    2.1.2.3 查找修改时间最早的序列的相关信息

    在检索结果页面将排序方式改为“Sort by Data Modified”,找到最后一条即修改时间最早的那条序列,其Accession是U37133查看其GeneBank数据,得知其外显区区在1-2677和3521-3921,内含子区在2678-3520。编码氨基酸残基由上文可知是1025个。

    图4 U37133的外显子与内含子区数据

    图4 U37133的外显子与内含子区数据

    为了获取其编码蛋白的亚细胞定位和三维结构信息,我们在UniProt数据库中检索其Accession,在其检索结果的“Sequence”中也可以知道共有1025个氨基酸残基,在“Subcellular Location”中可以知道该蛋白位于细胞膜上,在“Structure”中可以看到AlphaFold预测的三维结构。
    图5 在UniProt中检索U37133

    图5 在UniProt中检索U37133

    图6 U37133的序列信息

    图6 U37133的序列信息

    图7 U37133的亚细胞定位

    图7 U37133的亚细胞定位
    ![图8 U37133的三维结构(AlphaFold)](https://img-blog.csdnimg.cn/b920b696636b4aeaaf19e267fe7ac9b4.png)
    图8 U37133的三维结构(AlphaFold)

    2.2 检索特定序列并批量下载FASTA序列

    2.2.1 详细题目

    检索注册号在AF123456-AF123478之间并且序列长度在1500到1800 bp之间的核苷酸数据,共有多少条?如何批量下载它们FASTA的序列?

    2.2.2 解答过程

    2.2.2.1 高级检索

    我们将关键词的类型设置为Accession和Sequence Length,并添加关键词进行高级检索。

    图9 问题二高级检索

    图9 问题二高级检索

    2.2.2.2 批量下载FASTA格式文件

    点击“Send to”,并如图9一样设置,点击“Create File”即可下载。
    图10 批量下载FASTA格式文件

    图10 批量下载FASTA格式文件

    3. 讨论

    这次实验学习了如何在NCBI上查找核苷酸数据,并且在UniProt上查找蛋白质的相关信息,可以看到这次查找的蛋白质没有已经测定的三维结构,而是用AlphaFold预测得到的,这在三年前是不能实现的,我不禁人工智能对生命科学的贡献感到又一次震撼,在之后的学习生活中,我会好好学习计算机知识,并争取为生命科学做出大贡献!

  • 相关阅读:
    Day57 647. 回文子 516.最长回文子序列 动态规划总结篇
    深入理解计算机系统的数值类型
    Java私活200元,完成JavaSwing学生成绩管理系统(三)
    leetcode74 搜索二维矩阵
    ATFX汇市:美国5月PCE数据来袭,EURUSD或迎剧烈波动
    马斯克嘲讽元宇宙:谁会整天戴着头显设备?
    JavaEE 文件操作
    Last Week in Milvus
    工业高频读写器和超高频读写器怎么选?
    RCNN系列网络的理解
  • 原文地址:https://blog.csdn.net/dream_of_grass/article/details/127686142