The FAIR Guiding Principles for scientific data management and stewardship

Publisher:nature

Year of release:2016

Issuing country, region or organization:Periodical

Share to:

Research Questions:Methods for managing data with different open access attributes

Conclusion:

迫切需要改善支持重用学术数据的基础设施。代表学术界、行业、资助机构和学术出版商的多元化利益相关者聚集在一起,设计并共同认可一套简洁且可衡量的原则,我们称之为公平数据原则。其意图是,这些可以作为那些希望提高其数据持有量可重用性的指南。与专注于人类学者的同行倡议不同,FAIR原则除了支持个人重复使用数据外,还特别强调提高机器自动查找和使用数据的能力。本评论是公平原则的首次正式出版物,包括其背后的理由,以及社区的一些典范实施。

Proposal:

通过良好的数据管理支持发现

良好的数据管理本身不是一个目标,而是导致知识发现和创新的关键渠道,以及随后数据和知识在数据发布过程后由社区集成和重用的关键渠道。不幸的是,围绕学术数据出版的现有数字生态系统使我们无法从我们的研究投资中获得最大收益(例如,参考文献1)。部分对此,科学资助者、出版商和政府机构开始要求对公共资助的实验中生成的数据进行数据管理和管理计划。除了适当的收集、注释和存档外,数据管理还包括对有价值的数字资产的“长期护理”概念,目标是单独或与新生成的数据一起发现它们并将其重新用于下游调查。因此,良好的数据管理和管理的结果是高质量的数字出版物,这些出版物促进和简化了下游研究中正在进行的发现、评估和重用过程。然而,什么是“良好的数据管理”在很大程度上是未定义的,通常留给数据或存储库所有者。因此,对良好数据管理和管理的目标和理想进行一些澄清,并定义简单的指南来通知发布和/或保存学术数据的人,将非常有用。

本文描述了四项基本原则——可查找性、可访问性、互操作性和可重用性——这些原则旨在指导数据制作者和出版商绕过这些障碍,从而帮助最大限度地提高当代正式学术数字出版获得的附加值。重要的是,我们的意图是,这些原则不仅适用于传统意义上的“数据”,也适用于导致这些数据的算法、工具和工作流程。从数据到分析管道,所有学术数字研究对象2都有利于这些原则的应用,因为研究过程的所有组成部分都必须可用,以确保透明度、可重现性和可重用性。

有许多不同的利益相关者将从克服这些障碍中受益:希望共享、获得信用和重用彼此数据和解释的研究人员;提供服务的专业数据出版商;提供数据分析和处理服务的软件和工具构建器,如可重用工作流程;融资机构(私人和公共)越来越关注长期数据管理;以及数据科学社区挖掘,集成和分析新的和现有数据,以推进发现。为了方便这些不同的利益相关者阅读这份手稿,我们在方框1中提供了通用缩写的定义。然而,人类并不是科学数据环境中的唯一关键利益相关者。我们责成代表我们进行数据检索和分析的应用程序和计算代理也遇到了类似的问题。这些“计算利益相关者”越来越重要,随着其重要性的增加,需要更多或更多的关注。因此,数据密集型科学的最大挑战之一是通过协助人类及其计算代理发现、访问、集成和分析适合任务的科学数据和其他学术数字对象来改善知识发现。

对于某些类型的重要数字对象,生命科学中有精心策划、深度集成的特殊用途存储库,如Genbank3、全球蛋白质数据库(wwPDB4)和UniProt5;空间科学中的空间物理数据设施(SPDF;http://spdf.gsfc.nasa.gov/)和天文学数据识别、测量和参考书目集(SIMBAD6)。这些基础和关键的核心资源正在不断策划和捕获高价值参考数据集,并对其进行微调,以提高学术产出,为人类和机械用户提供支持,并提供广泛的工具,以丰富、动态的方式访问其内容。然而,并非所有数据集甚至数据类型都可以被这些存储库捕获或提交到这些存储库。从传统的低通量台式科学中产生的许多重要数据集不适合这些特殊用途存储库的数据模型,但这些数据集在综合研究、可重现性和一般重用方面同样重要。显然,为了应对这种情况,我们看到出现了许多通用数据存储库,其规模从机构(例如一所大学)到开放全球范围的存储库,如Dataverse7、FigShare(http://figshare.com)、Dryad8、Mendeley Data(https://data.mendeley.com/)、Zenodo(http://zenodo.org/)、DataHub(http://datahub.io)、DANS(http://www.dans.knaw.nl/)和EUDat9。这些存储库接受各种格式的多种数据类型,通常不试图整合或统一存储的数据,对数据沉积的描述符几乎没有限制(或要求)。因此,由此产生的数据生态系统似乎正在远离集中化,正在变得更加多样化,也越来越不整合,从而加剧了人类和计算利益相关者的发现和可重用性问题。

在基因调控和表达分析领域,可以想象出这些障碍的具体例子。假设研究人员在刺激其致病状态的各种环境条件下生长的非模型致病生物中生成了不同选择的聚腺素位点的数据集。研究人员有兴趣将该局部数据集中的替代多聚腺基化基因与其他替代多聚腺苷酸化示例进行比较,以及这些基因在感染过程中的表达水平——包括该生物体和相关模型生物体中的表达水平。鉴于没有差异性多腺机化数据的特殊用途档案,也没有这种病原体的模型生物数据库,研究人员从哪里开始?

我们将从各种数据发现和集成的角度考虑当前解决这个问题的方法。如果存在所需的数据集,它们可能发布到哪里,以及如何使用什么搜索工具开始搜索它们?所需的搜索需要根据特定物种、特定组织、特定类型的数据(Poly-A、微阵列、NGS)、特定条件(感染)和特定基因进行过滤——这些信息(“元数据”)是否被存储库捕获,如果是,它是什么格式,是否可以搜索,以及如何?一旦发现数据,可以下载吗?以什么格式?是否可以轻松地与私人内部数据(替代多腺苷酸化网站的本地数据集)以及第三方的其他数据出版物和社区的核心基因/蛋白质数据存储库集成?是否可以自动进行此集成,以节省时间并避免复制/粘贴错误?研究人员是否有权在什么许可条件下使用这些第三方研究人员的数据,如果数据点被重复使用,应该引用谁?

像这样的问题凸显了数据发现和重用的一些障碍,不仅对人类来说,对机器来说更是如此;然而,正是这些深度和广泛的综合分析构成了当代电子科学的大部分。我们通常需要几周(或几个月)的专业技术努力来收集回答此类研究问题所需的数据,原因不是缺乏适当的技术;原因是,当我们创建和保存有价值的数字对象时,我们没有给予它们应有的谨慎关注。因此,克服这些障碍需要所有利益相关者——包括研究人员、特殊目的和通用存储库——进行进化,以应对上述新出现的挑战。目标是使各种学术数字对象成为科学出版物生态系统中的“一流公民”,在那里,出版物的质量——更重要的是,出版物的影响——取决于其随着时间的推移被所有人类和机械利益相关者准确和适当地发现、重复使用和引用的能力。

带着这个目标,2014年在荷兰莱顿举办了一个名为“联合设计数据博览会”的研讨会。这次研讨会汇集了广泛的学术和私人利益相关者,他们都有兴趣克服数据发现和重用障碍。从研讨会的审议中可以得出这样一种观点,即通过定义和广泛支持一套最低限度的社区商定的指导原则和实践,所有利益攸关方都可以更容易地发现、访问、适当集成和重用,并充分引用当代数据密集型科学正在生成的大量信息。会议结束时起草了一套基本原则,随后进行了更详细的阐述——即所有研究对象对机器和人员来说都应该是可查找、可访问、互操作和可重用(FAIR)。这些现在被称为公平指导原则。随后,由FORCE11社区10的几名成员成立的专门的FAIR工作组对《原则》进行了微调和改进。这里报告了这些努力的结果。