Paper reading series -1
简介
在生物医学研究中,一些名称会随着时间发生变化,并且生物实体通常会有很多别名,另外还有一些未被命名的数据也需要准确区分。因此在各类生物医学数据库中,使用唯一ID表示数据非常重要。为了整合分析多个数据库的内容,ID转换非常有必要。比如将RefGene ID与Ensemble ID对应起来。
全面且准确的ID转换并不容易实现。这需要在数量和数据量都在不断增长的生命科学领域数据库中,准确提取并不断更新各个源数据库中的ID之间的关系。如果有一个方便可用的API,web应用开发可节省大量人力时间,且可帮助科研工作减少时间投入。
现有ID转换工具存在支持的数据库范围有限,难以加入新的ID转换,对应ID的生物意义不清晰,不提供可用API等问题。TogoID项目通过扩大数据库范围,定义本体明确描述ID之间关系,基于云托管的数据定期更新,构建了友好的web界面和API,满足了ID转换的各类需求。
支持的数据库
包含基因,转录本,蛋白,结构,化合物,信号通路,疾病和文献等48个数据库。但由于数据库ID形式多样,为了便于整合,切分为65个子数据库。


与已有ID转换工具比较
在6个维度上,TogoID是最全面的工具。

系统和方法
配置:开发者可在github通过发送pull request扩展支持的数据库范围。在配置文件中描述各类标签和ID。
本体:当需要多个步骤转换时,对应实体在源数据库,中间数据库和目标数据库中的种类并不相同,此时需要仔细查看。为了便于解释转换过程,TogoID使用OWL定义ID关系的本体,描述各种概念和它们之间的关系。共26个层级类表示数据库的种类,77个属性表示不同实体之间的关系。
数据更新过程:比较本地文件与数据库的更新日期和文件大小,一旦发生变化则自动更新。
系统架构:基于亚马逊云。
特点



使用
网页界面
可直接键入ID或上传ID列表,无需指定源数据库,系统可自动判断ID来自哪个数据库。当有多个可能的来源时,需要点选,然后右侧可显示目标关联数据库。
EXPLORE页面列出了所有可转换关联的数据库。如果需要经过多个步骤,涉及不同数据库才能转换,页面可显示转换过程。NAVIGATE可指定目标数据库显示。如下图所示,每个颜色标签都可点击展示详情并下载。
页面不仅展示源数据库和目标数据库,当有中间转换步骤时,可清晰显示实体之间的关系。比如Ensembl gene 和UniProt之间的关系为has gene product,而UniProt 与 GlyTouCan之间的关系为 is modified with,清楚的表示了多糖与蛋白之间是修饰关系。

不同的颜色块表示特定种类的数据库信息。

API
除了通过用户友好的网页界面使用,TogoID还提供了API可用于大规模编程查询或灵活地在各类应用中整合使用。比如在开发生物信息应用时,如果原本只支持Ensembl ID, 可通过TogoID的集成,就可增加对NCBI Gene ID或HGNC基因名称的支持。
参考
TogoID:https://togoid.dbcls.jp/
Ikeda S, Ono H, Ohta T, et al. TogoID: an exploratory ID converter to bridge biological datasets[J]. Bioinformatics, 2022.
《生信了》2022年9月