初探生物信息数据库——生信原理第一次实验报告(华农)
熟悉NCBI数据库Entrez检索系统,会使用关键词检索NCBI、UnitProtKB、PubMed等数据库,能理解检索结果页面各条目含义。
2.1.1 详细题目
水稻抗病基因Xa21有多少条序列具有全长CDS,分别由多少碱基构成?编码多少个氨基酸?选择修改时间最早的一条序列,指出该基因exon和intron的位置。该基因编码的蛋白质有多少个氨基酸残基?该蛋白质可能位于细胞中哪个位置?是否有三维结构信息?
2.1.2 解答过程
2.1.2.1 高级检索Xa21
为了找到水稻基因Xa21有多少条续流具有全长CDS,我们需要在高级搜索中将Organism限定为rice,此外在也需要将Xa21和complete CDS添加到Title中。
2.1.2.2 分析碱基构成及编码氨基酸个数
由检索结果(图二)可知,共有三条序列具有全长CDS,从每一条序列名称的第二行可以看到其碱基数,点击protein选项可以查看其氨基酸个数。
三条具有全长CDS的序列的碱基数以及编码氨基酸数目如下表:
Accession | 碱基数 | 氨基酸数 |
---|---|---|
AB212798 | 4623 | 1025 |
AB212799 | 4623 | 1025 |
U37133 | 3921 | 1025 |
2.1.2.3 查找修改时间最早的序列的相关信息
在检索结果页面将排序方式改为“Sort by Data Modified”,找到最后一条即修改时间最早的那条序列,其Accession是U37133查看其GeneBank数据,得知其外显区区在1-2677和3521-3921,内含子区在2678-3520。编码氨基酸残基由上文可知是1025个。
为了获取其编码蛋白的亚细胞定位和三维结构信息,我们在UniProt数据库中检索其Accession,在其检索结果的“Sequence”中也可以知道共有1025个氨基酸残基,在“Subcellular Location”中可以知道该蛋白位于细胞膜上,在“Structure”中可以看到AlphaFold预测的三维结构。
2.2.1 详细题目
检索注册号在AF123456-AF123478之间并且序列长度在1500到1800 bp之间的核苷酸数据,共有多少条?如何批量下载它们FASTA的序列?
2.2.2 解答过程
2.2.2.1 高级检索
我们将关键词的类型设置为Accession和Sequence Length,并添加关键词进行高级检索。
2.2.2.2 批量下载FASTA格式文件
点击“Send to”,并如图9一样设置,点击“Create File”即可下载。
这次实验学习了如何在NCBI上查找核苷酸数据,并且在UniProt上查找蛋白质的相关信息,可以看到这次查找的蛋白质没有已经测定的三维结构,而是用AlphaFold预测得到的,这在三年前是不能实现的,我不禁人工智能对生命科学的贡献感到又一次震撼,在之后的学习生活中,我会好好学习计算机知识,并争取为生命科学做出大贡献!