Publisher:Frontiers
Year of release:2019
Issuing country, region or organization:United States of America (USA)
Research Questions:A paradigm for innovation-driven development based on open science
Conclusion:
开放科学将使科学更高效、更可靠,更能应对社会挑战。欧盟委员会一直寻求从一开始就以整体和综合的方式推进开放科学政策,涵盖研究周期的所有方面,从科学发现和审查到知识共享、出版和外联。我们以前瞻性的角度介绍了所采取的步骤,以应对未来的挑战,特别是对研究人员奖励和激励制度的必要改变(各行为体对此负有共同责任,超出了欧盟委员会的任务范围)。最后,我们从开放的科学角度讨论了人工智能(AI)的作用。
Proposal:
开放科学本身不是一个新概念,许多术语已被用来指代科学实践的转变,例如Science 2.0(Burgelman等人,2015年;Szkuta和Osimo,2016年)。转变为开放科学的多种方法(Fecher等人,2015年)都植根于科学开放的传统。由于2014年关于科学2.0转型科学的公众咨询,欧盟委员会开始使用“开放科学”一词(欧盟委员会,2015年)。在这次咨询的近500名受访者(包括大型科学组织或协会)中,有42%的人更喜欢“开放科学”一词,而不是科学2.0等替代品。欧盟委员会尊重这一术语选择,尽管欧洲政策旨在“开放奖学金”,因为“开放奖学金”反映了将人文学科纳入等式,并强调科学的开放投入方面,其形式为开放协作,并在出版和其他科学开放产出之前积极数据和知识共享。新的欧盟研究和创新框架计划Horizon Europe将促进开放学术的全部含义的开放科学。本着这种精神,Von Schomberg(2019)将开放奖学金定义为在研究过程中尽早与所有相关知识行为者公开合作共享知识和数据。在本文中,我们使用了这个广义的“开放科学”一词。
开放科学本质上是指科学因全球化和信息和通信技术而正在经历的转变——就像社会任何其他部门一样——因此,从长远来看,形容词开放是不必要的,因为科学默认是开放的。从互联网前阶段开始,开放科学的一个早期和众所周知的例子是始于1990年的人类基因组项目。在项目过程中,科学界广泛分享了关于人类基因组的数据,同时暂停出版,以鼓励最佳合作。由于这种开放性,他们能够在<15年内解码人类基因组。开放科学(或事实上,开放奖学金)已将研究人员的主要重点从出版转向知识共享。
ICT is critically enabling open science, but open science is more than a technology-driven change. Several elements of the life cycle of research need to be in place. One of the most important ones for open science to succeed is open data. The latter is a condition sine qua non for reproducibility and scientific progress. Open data speed up the research process by facilitating re-use and enriching datasets (King, 2011; Piwowar et al., 2011; Whitlock, 2011) while making the most of (public) investment in the production of research data. Opening up data enables to detect false claims and inaccuracies and allows for replicability tests (e.g., Ioannidis and Khoury, 2011). In essence, it allows more use of the same investment and thus more scope for discovery, in particular, for addressing crosscutting research questions like most of the big challenges that affect the world (UN Sustainable Development Goals1). Finally, it gives credit to data creators increasing their citation rate and therefore their research impact (Piwowar et al., 2007). Opening up research data also impacts the social web (Tenopir et al., 2011; Wallis et al., 2013; Peters et al., 2016).
埃博拉和寨卡疫情的病例一方面显示了开放科学的优势,另一方面显示了研究人员的困境。2014-2016年期间,西非因埃博拉疫情造成的许多死亡病例本可以利用现有的公共知识来预防(Knobloch等人,1982年)。在埃博拉疫情的边缘,研究人员主动分享了有关病毒的数据,结果是实验疫苗很快就可用2。世界卫生组织[世界卫生组织(世卫组织),2015年]寻求在公共卫生紧急情况下共享信息的方法的范式转变,从为发布时间表设定的禁运限制转变为使用现代适合用途的出版前平台开放共享。研究人员、期刊和资助者需要充分参与,才能发生这种范式转变。世卫组织承认,天然基因组序列专利可能会抑制进一步研究和产品开发,并希望研究实体在为基因组相关发明申请专利和许可时行使酌处权,以免抑制产品开发,并确保适当的利益共享。该组织还希望科学出版商不要惩罚,而是鼓励或强制公开共享相关数据。寨卡是继埃博拉的例子之后下一个新出现的重大公共卫生问题,该例子在基于开放奖学金的有效举措中遇到了这个问题。美国国立卫生研究院现在要求受赠方最迟在发布时公布大规模基因组数据。
共享数据的使用超出了一个学科,扩大了研究范围并使视角多样化(Fischer和Zigmond,2010年)。它还允许创造新的(元)知识(Evans和Foster,2011年)。尽管如此,由于数据引用还不是标准做法,缺乏正式的认可,数据共享仍受到阻碍(Costas等人,2013年),以及研究人员的抵制,他们认为开放数据将危及其个人出版轨迹和影响(期刊影响因素和引用;Scheliga和Friesike,2014年)。
改变研究人员的奖励和激励制度是一个关键的开放科学挑战,也是一个更广泛的问题,其责任主要在于科学界(大学和资助者)。这包括使开放科学实践有回报和资金,以及使用特定指标来参与开放科学。奖励和激励制度的改变只能由利益相关者驱动,而且必须自下而上。这一变化还包括改变研究人员开放和共享数据的心态,以及“诱惑”,使开放科学变得简单、有用和负担得起3。
为了确保欧洲的科学生态系统适合开放科学的新工作方式,欧盟委员会以共同设计和共同开发模式与主要科学利益相关者制定了一项整体政策,以促进使开放科学成为欧洲现实所需的变革4。欧盟委员会的方法已被一些资助者和机构所接受,并被用作他们自己政策的典范。
它还激励了其他大陆发布类似的声明政策,例如,呼吁研究界共同努力实现“设计开放科学”(国家科学、工程和医学科学院,2018年)、倡议(如澳大利亚研究数据基础设施倡议5,目前正在转化为超国家层面;七国集团在开放科学工作组6中的工作),以及经合组织在增强数据和模型的获取(经合组织,2006年)和可持续研究数据存储库的业务模式(经合组织,2017年)、非洲研究云(ARC)和教科文组织方面的工作。
启动时刻是当时新任研究和创新专员C的出版。Moedas对欧洲的愿景是“开放创新,开放科学,向世界开放”。专员首次将解决科学系统的变化作为其关键优先事项之一(欧盟委员会,2016a)。
从一开始,当时的研究和创新委员会总干事RJ Smits就希望委员会以身作则,强制开放访问同行评审出版物,并鼓励开放获取由欧盟委员会资助的项目的研究数据。将改善对Horizon 2020和后续项目生成的研究数据的访问和再利用,并最大限度地访问。在Horizon Europe,研究数据将默认开放,同时考虑到需要按照“尽可能开放、必要时关闭”的原则,平衡科学信息的开放和保护、商业化和知识产权、隐私问题和安全。即使不开放研究数据,数据管理计划(DMP)也将成为强制性的。负责任的数据管理要求将与提供开放访问研究数据的要求分开。重点将放在尽可能支持可查找、可访问、可互操作和可重用(FAIR)的数据激增。最后,在一些地平线欧洲工作计划中,研究数据将需要使用欧洲开放科学云(EOSC)等可信或认证的存储库和基础设施。
在Horizon 2020中,开放获取出版物已经是强制性的。研究人员最迟需要在出版时将已出版版本或最终同行评审手稿的副本存入他们选择的存储库中,并确保在出版后6个月内或社会科学和人文学科12个月内通过存储库开放访问该出版物。存储库将继续在欧洲地平线开放获取委员会的政策中发挥关键作用。
2018年,委员会决定支持S计划向开放获取迈进的雄心壮志。S计划于2018年9月在欧洲科学主席Marc Schiltz和前DG Robert-Jan Smits的主持下启动,目的是“2020年1月1日之后,由国家和欧洲研究理事会和资助机构提供的公共赠款资助的研究产生的科学出版物必须在合规的开放获取期刊或平台上发布。”
作为一个支持组织,委员会致力于加快向开放获取科学出版物的全面过渡,并将继续与cOAlition S成员(致力于S计划的研究资助者)共同努力,以确保一致的方法。目前正在采取行动,根据计划S完成向开放获取的过渡。在地平线2020中,委员会正在执行其开放获取和支持计划S实施的任务,而无需进行法律更改(例如,开放研究欧洲平台、突出现有的OA要求、监测和制裁)。在法律文本中实施S计划将在地平线欧洲(法规/MGA),包括计划S原则,如保留知识产权、开放许可证、立即开放访问或对存储库和OA场所的进一步要求。
委员会还超越了开放获取,以促进和推进开放科学。开放科学实践将嵌入选定的地平线欧洲工作计划中,具体取决于科学学科及其特殊重点。激励措施将包括尽早分担工作或在出版物和数据之外共享研究成果等做法的成本资格。委员会已经在探索如何确保从事开放科学实践的研究人员因此获得奖励,并可能引入数据引用等新一代指标,以更细致地了解欧共体公共资助的研究的更广泛影响。
尽管拥有开放的研究数据有很多优势,但似乎对数据科学革命在实施促进变革的措施的成本方面意味着什么的认识似乎较少。政府支持建设新的研究基础设施,但维护资源,包括数据增长,对数据托管和管理的需求呈指数增长,并不充足(欧盟委员会,2016年b)。机构和专题存储库都托管数据并制定自己的战略。然而,不协调的努力往往导致存储库之间的差异和缺乏协同作用。提出了两种(非预算)方法来解决这个问题。一个是技术性的,即FAIR指南,而第二个是使用FAIR作为联邦基础设施中的重要使能因素。
FAIR8数据(可找到、可访问、可互操作和可重用的数据)(Wilkinson等人,2016年)在开放科学的目标方面发挥着至关重要的作用,以改善和加快科学研究,以增加社会的参与,并为经济增长做出重大贡献。没有FAIR研究数据,开放科学根本是不可能的。
欧洲开放科学议程包含到2020年使FAIR数据共享成为科学研究的默认目标。为了通过切实可行的建议支持在欧洲内外实施公平数据原则9,委员会成立了一个公平数据专家组10。该专家组的建议11描述了在欧洲将公平变为现实的广泛变化(政策、文化和技术)(欧盟委员会,2018年):能够发现、引用和重用的公平数字对象;支持公平的数据服务;纳入研究社区实践的互操作性框架;释放分析和数据集成潜力的分布式联邦基础设施;数据科学和数据管理技能;开放科学的激励措施(指标和指标);以及为公平带来强劲投资回报的资金。
对于欧洲科学系统来说,没有FAIR研究数据的年度机会成本(欧盟委员会,2019a,b)估计至少为102亿欧元。此外,据估计,如果没有FAIR还将为更广泛的研究和创新系统带来160亿欧元的年度机会成本。
为了提高公平评估框架的一致性和互操作性,委员会启动了研究数据联盟(RDA)“公平数据成熟度模型”工作组12下的工作,以制定一套公平性的核心评估标准和用于衡量数据集成熟度的通用和可扩展的自我评估模型。该小组汇集了来自不同科学和研究学科、行业和公共部门的100多名利益相关者代表,他们对FAIR原则和制定评估方法来评估其现实生活的接受和实施感兴趣(Sansone等人,2019年)。
欧洲确实面临着不可互操作服务和研究数据的相当大的问题,以及获得这些研究数据的跨学科访问有限。研究人员很难组织和存储自己的数据,以便以后可以自己使用,更不用说长期使用其他研究人员了。尽管存在这些挑战,但创建“科学研究数据通用”所需的要素已经到位,但它们在成员国和不同科学界的碎片化中丢失(欧盟委员会,2016a)。EOSC“科学数据通用”的过程是社区驱动和多层次的,即(多)国家、区域(欧洲)和全球(Budroni等人,2019年)。2018年,欧盟委员会启动了一个“科学互联网”的进程,其原则是最低限度的治理、最大的实施自由、全球互操作性和可访问性,并在全球范围内嵌入基于科学数据的“公域”(欧盟委员会,2016a)。欧洲开放科学云13中的“云”一词被理解为旨在无缝并支持公地理念的服务的隐喻:使欧洲170万研究人员能够在同等条件下通过开放科学云在不离开办公桌的情况下跨国家和科学学科存储、共享和重用数据。EOSC不是“布鲁塞尔制造”的云,也不会建立在“绿色领域”(过去二十年来欧盟和成员国每年的基础设施投资100亿欧元以及现有的专业知识)。GO FAIR是一种自下而上的国际方法,用于实际实施欧洲开放科学云,作为全球FAIR数据和服务互联网的一部分14。
EOSC正面临复杂的治理问题,需要一个基于信任和增强互助性、代表性、相称性、问责制、跨学科和国家包容性以及透明度的强大而灵活的“联邦”治理模式。新的EOSC治理框架15符合这些原则,并完美地说明了早期启动董事会的一些职能(如关键战略决策和监督、问责制)以及创建EOSC所需的创业态度(“建立并扩大它”)。
即使我们可以说,在二十一世纪第二个十年末,数据驱动科学的想法已被接受为新的现实研究,但欧共体确实认为,这只是更深层次变化的开始。科学系统正处于“从数据稀疏到数据饱和的滑坡过渡”(欧盟委员会,2016年b)。生成的数据量已经在呈指数级增长。今天,世界上90%的数据是在过去两年内生成的(每天2.5万亿字节的数据)16。
但随着万物(人类和人工制品)的互联网的出现,全球内外发生的一切将以某种方式成为一个数据点,因此适合研究。今天,使用TDM技术在云端进行数据分析和处理是准标准做法。在线协作工具(Pascu等人,2007年)是新的实验室科学,因为测试版产品的“流程”在某些学科中被接受。
人工智能将再次推动获取知识并从中创造意义的前沿(Elsevier,2018年)。这与40年前引入PC和互联网的影响相当。潜力实际上是“无限的”。例如,在医学上,人工智能可以帮助识别与癌症相关的新基因,眼疾的斑点指标18,并建议如何转诊患者接受治疗或寻找从事相同治疗的同龄人。从长远来看,它可以扩展到其他知识领域19。
人工智能已经展示了加快数据发现和数据分析以及从研究工件中提取知识的潜力20(Sinha等人,2015年;Wang,2019年)。人工智能技术可以作为进一步学术讨论的催化剂21,并改变研究贡献的认可方式(Piwowar,2013年),例如,在同行评审过程中22,23。
最重要的挑战仍然是人工智能能否在决定研究的原创性方面发挥关键作用,这是科学的基石之一。可复制的研究使科学更高效、更可靠。有证据表明,超过70%的研究人员未能重现其他同行的研究24。一个原因是实验设置很少被描述(只有大约一半的论文包含构建的代码)25。期望人工智能通过“打开模型”来提高研究的可信度26和研究效率(Dodge等人,2019年)。
公共卫生紧急情况的埃博拉病例为全球研究合作如何帮助应对我们时代的社会挑战提供了一个鼓舞人心的模式。这种情况不应该是例外,而应该是常态。然而,正如埃博拉和寨卡的戏剧性案例所表明的那样,为了使开放科学成为常态,需要实施与研究人员工作核心相关的开放科学政策,解决研究人员奖励和激励制度的必要变化。这意味着,正如新出现的公共卫生紧急情况所表明的那样,在主要科学期刊上发表的重要性将在全面运作的开放科学背景下相对化,开放数据、开放软件等其他研究成果将变得重要。公开的研究成果将在出版前而不是出版后提供。
人工智能技术具有培养包容性科学界的潜力。但一个好的人工智能取决于数据的多样性和质量。开放数据可以为人工智能算法和机器发挥关键作用,以运行并产生良好的结果27。
向开放科学的过渡是一个多维和多阶段的过程。成为先发者有价值和风险,但成为追随者的风险更高。欧盟委员会已采取各种步骤来启动这一过渡,但所有利益攸关方都必须参与进来,采取相辅相成的步骤,推进开放科学政策及其实施(Euroscientist,2015年)。毕竟,欧共体理所当然地在许多应该制定开放科学政策的领域(例如奖励和激励措施)上都没有能力。