2016年,《Scientific Data》发表了《科学数据管理和监督的FAIR指导原则》(FAIR Guiding Principles for scientific data management and stewardship)。文章旨在提供指导方针,以提高数字资产的可发现性、可访问性、互操作性和重用性。这些原则强调机器可操作性(即计算系统在没有或最少人工干预的情况下查找、访问、互操作和重用数据的能力),因为随着数据的数量、复杂性和创建速度的增加,人类越来越依赖计算支持来处理数据。
F1 数据(元数据)被分配全球唯一且持久的标识符。
F2 使用丰富的元数据描述数据。
F3元数据清楚明确地包含所描述的数据的标识符。
F4数据(元数据)在搜索应用服务中注册或索引。
A1 数据(元数据)可以使用标准化通信协议,通过其标识符进行检索。
A1.1 该协议是开放的、免费的,并且可普遍实施;
A1.2 协议允许在必要时进行身份验证和授权过程;
A2 即使数据不再可用,也可以访问其元数据。
I1 数据(元数据)使用正式的、可访问的、可共享和广泛适用的语言表示。
I2 数据(元数据)使用遵循FAIR原则的词汇表。
I3 数据(元数据)包括对其他数据(元数据)的合法引用。
R1 数据(元数据)用多个准确且相关的属性进行充分描述。
R1.1 发布的数据(元数据)包含清晰且可访问的数据使用协议;
R1.2 数据(元数据)包含详细的出处信息;
R1.3 数据(元数据)符合领域相关标准;
数据FAIR化流程可分7步:
1)确定目标;
2)分析数据;
3)分析元数据;
4)定义语义数据和元数据模型;
5)链接数据和元数据;
6)托管FAIR数据;
7)评估FAIR数据。
这7个步骤又可分为FAIR化过程前(步骤1,2,3),过程中(步骤4,5,6)和过程后(步骤7)三个阶段。
确定FAIR化目标。首先,我们要能获取数据。如果要获取的数据涉及隐私和敏感问题,可使用匿名数据。数据FAIR化的目标可能是需要满足出版方、项目资助方或相关权益方的要求,或者是要增加多源数据的使用效率。我们建议先根据已有资源的条件(比如时间)确定部分数据元素的FAIR化目标。FAIR化目标是否实现依赖于:1)学科领域知识和数据建模知识;2) 可重用的FAIR解决方案;3)具有FAIR化特征、适合处理数据集的工具。
这个步骤包括1)调查数据可获取的形式,检查数据表达形式和数据元素(数据的语义)的含义是否清楚且无歧义;2)检查数据是否包含FAIR特征,比如具有永久唯一标识符。
元数据是使数据可发现,可获取和可重用的关键。步骤3的工作包括1)调查是否具备元数据,如果没有元数据要明确需要采集什么元数据(每个学科领域的要求不同);2)检查元数据是否具有FAIR特征,比如元数据是否丰富,是否具有溯源描述信息,以及是否具有提高元数据质量所要考虑的细节,例如使用许可、版权、数据贡献声明以及使用条件和数据获取说明。
语义模型指的是下一个步骤中把数据和元数据转换成机器可读形式的模板。生成语义模型通常是数据FAIR化过程中最费时的一项工作。需要首先检查下数据是否已有语义模型,元数据是否可重用。新建一个语义模型需要三个步骤:1)创建概念模型;2)搜索本体词汇,3)创建语义模型。这个过程既需要研究领域的知识,也需要数据语义建模的知识。
链接数据和元数据的方法随着数据使用案例不同而不同。关键之处在于对数据和元数据的描述要求是机器可读的。数据的语义模型应该和数据以及元数据关联,这样语义模型将来才可能被重用,具有互操作使用的功能。这个阶段可使用的工具包括the FAIRifier,它可帮助将数据转为机器可读的形式,并且通过追踪中间步骤而使这个转换过程可重用。其他类似的工具还有Karma , Rightfield 和OntoMaton。将元数据转换为机器可读的形式的工具有the FAIR Metadata Editor , CEDAR , 以及Bioschemas Generator。推荐两种方法利用元数据增加资源被发现的可能性。第一,推荐将数据资源在本领域相关的资源注册中心或索引机构登记和索引,最好是符合FAIR原则的注册中心或索引机构。第二,推荐使用Schema.org 的标记(或者本领域的标记体系例如Bioschemas)使得数据资源将来可以被通用目的的搜索引擎例如Google检索到。
在这个步骤,数据处于可被消费的状态。人或者机器通过不同的界面,例如API, RDF 三元组存储,或者网页应用程序调用数据。在线展示FAIR资源的工具有很多,例如FAIR Data Point (FDP) 软件。该软件针对人类用户的界面提供了包括元数据层链接的简单网页,供机器处理的界面上提供可机读的RDF文件。
此步骤包括的工作:1)检查是否在步骤1中描述的目标已经实现,如果没有实现,要重新检查工作流步骤;2)检查数据和元数据的FAIR状态和步骤2,3中的FAIR状态进行比较。