Works-magnet: Accelerating Metadata Curation for Open Science

Time:2025-06-29
Keywords:open metadata open source projects

image.png

在开放科学生态建设中,科研成果和数据的可发现性、可复用性,越来越依赖高质量的元数据(Metadata)支撑。然而,当前全球范围内,许多科研机构和数据平台仍对商业数据库存在高度依赖,开放数据库如OpenAlex等虽已发展迅速,但仍存在准确性不足、人工整理成本高等瓶颈。

近日,来自法国高等教育与研究部(MESR)数据科学与工程团队Eric Jeangirard发表论文“Works-magnet: Accelerating Metadata Curation for Open Science”(发表于arXiv20256月),系统介绍了团队开发的Works-magnet开源工具,探索人机协同的新机制,提升开放科学元数据质量。

论文原文链接:https://arxiv.org/abs/2406.19537
项目开源地址:https://github.com/dataesr/works-magnet


项目背景


论文指出,法国自2018年发布《国家开放科学计划》以来,建立了包括法国开放科学监测仪在内的全国性监测体系,并自2019年起向高校和科研机构推广。但在实践中,机构层面普遍依赖如Web of Science等商业数据库,难以实现自主可控的开放监测,开放数据平台如OpenAlex也存在机构归属信息错误频发、人工干预成本高的问题。

例如,法国某些研究机构在OpenAlex中可能出现五种以上不同的归属记录,严重影响学术评价和开放科学政策制定的准确性。


Works-magnet:开放环境下的创新解决方案


Works-magnet项目专门设计用于加速科学研究数据的质量提升,它代表了一个根本性的范式转变:从专有环境走向开放环境。

image.png人机协作:让AI计算变得可见可纠正

Works-magnet的创新之处在于将人类重新置于AI处理循环中。尽管各种第三方工具(包括机器学习和人工智能)在将机构名称匹配到研究机构注册表ID方面准确率达到85%-95%,但这仍然不够完美。该平台通过以下方式解决这一问题:

1)透明化AI处理过程:让自动化计算结果可见

2)简化人工纠正流程:使专家能够轻松发现和修正错误

3)开放成果共享:所有纠正后的数据都成为开放资源

实际成果与挑战

截至目前,Works-magnet已经处理了71,283个纠正请求,其中很大一部分已经完成处理。这些纠正数据通过GitHub问题跟踪系统和开放数据集公开可用。尽管成果显著,Works-magnet仍面临一些限制:

1)技术挑战:依赖GitHub APIOpenAlex验证延迟可能导致错误积压;

2)资源限制:项目几乎没有财政资助,人力资源不足0.25个全职当量;

3)数据复杂性:原始署名数据不一致,需要多样化的策略处理。

未来展望:构建可持续的开放元数据生态

1)互操作性增强。确保整理成果不仅开放,还具有互操作性,便于在不同环境中重复使用。

2AI模型训练。不断增长和完善的数据集有潜力成为新AI模型的宝贵训练基础,可能减少对大量人工干预的依赖。

3)集中化讨论。正在讨论将各种整理计划的成果集中化,创建权威的高质量开放研究元数据源。

意义与影响

Works-magnet不仅仅是一个技术工具,更代表了一种新的协作模式:利用公共部门的专业知识、将个体努力转化为集体收益、推动整个科学界数据质量的提升。这个项目展示了如何通过开放、透明和协作的方式,有效解决开放科学时代的数据质量挑战,为全球科研数据管理提供了宝贵的借鉴经验。


新闻内容来自以下网站,不代表GoOA头条立场:

https://arxiv.org/abs/2506.14430