The State of Open Data in China 2024

Publisher:Computer Network Information Center Chines Academy of Science;Science Data Bank

Year of release:2024

Issuing country, region or organization:China

Share to:

Research Questions:Methods for managing data with different open access attributes;Transition from subscription to open acquisition of scientific data

Conclusion:

2024年,中国学者对开放数据的支持度保持在高位并呈现逐  年增长态势,期刊和出版商的数据政策对中国学者数据共享行为  的影响力在增强。同时,关于开放数据,我们还面临着诸多挑战,比  如受访者担心自己的成果不能够被正确使用、希望自己获得更为  充分的数据共享贡献认可,科研机构、资金资助方等对科研人员共  享数据的引导作用还不够。但我国开放数据的工作进展不断向好。  国家数据政策的不断出台、开放数据存储库的建设推广、学者们对  开放数据的认可度不断提升,以及人工智能技术对开放数据的辅  助支持,都是我国开放数据事业发展的强劲动力。  国家材料腐蚀与防护科学数据中心马菱薇等介绍了国内材料  腐蚀科学数据的发展情况,从数据的特点、数据资源采集及分析挖  掘技术、材料耐蚀性能与寿命预测等方面进行了具体阐述。目前,  国家材料腐蚀与防护科学数据中心已经开展150余个不同气候环  境和重大工程腐蚀大数据联网观测,相关数据分析方法和模型,解  决了腐蚀产物累积效应下腐蚀非线性动力学过程无法准确建模仿  真的难题。文章最后,提出了通过“数据-知识”智能融合驱动、跨模  态知识图谱、腐蚀领域大语言模型等新型科研范式持续推进材料  腐蚀科学数据共享应用的未来展望。  国家生态科学数据中心何洪林等介绍了国内外生态系统野外  台站(网络)长期观测数据开放共享发展情况。国家生态科学数据  中心在推动中国生态系统野外台站长期观测数据开放共享过程中  开展了诸多实践,包括编制出版生态系统和生物多样性领域野外  站观测技术规范、生态系统野外台站长期观测数据产品的团体标  准;开发和出版数据专著、图集、数据论文等野外站数据产品;研发  多个数据应用分析挖掘工具;建立新一代生态网络云平台等。并针  对新科研范式对野外台站长期观测数据的开放共享提出的挑战和  需求,提出了未来持续推进数据开放共享的主要着力点。  国家基因组科学数据中心张思思等聚焦于人类遗传资源的数  据管理与共享,系统梳理了国际人类遗传资源管理制度与框架的  特点,分析其对资源管理与共享利用的启示;同时,深入探讨了我  国人类遗传资源管理制度,总结了国家生物信息中心在我国人类  遗传资源数据管理中取得的成效与积极作用。最后,探讨了人类遗  传资源数据共享问题,并展望了深化人遗平台建设的方向,包括引  入新型数据管理机制,推广数据共享模式,推动高质量数据生成,  赋能生命科学创新发展。  国家基础学科公共科学数据中心胡良霖等介绍了中心数据资  源体系建设情况,精心梳理了战略性新兴产业等对应的科技项目  汇交专项数据,并依据国家“数据要素×”三年行动计划中明确的  12个行业和领域梳理了相关场景所需的数据资源。中心开展了多  学科交叉实践探索,如研究多学科跨领域数据融合服务网络关键  技术与基础框架,开展基础领域多学科交叉融合应用研究。最后,  针对当前面临的挑战,提出了科学数据供给、科学数据治理理论和  方法、科研基础设施、科学数据要素化路径等应对和发展建议。  国家青藏高原科学数据中心潘小多等分享了中心在引领地学  数据开放共享方面的实践。中心在数据共享、质量控制、数据评审  等方面取得显著成效,支持了青藏科考等一系列国家重大项目,促  进了青藏高原地球系统科学创新。未来,中心还将从数据图书馆阶  段全面转型到数据实验室阶段,充分发挥数据对未来地学科技创  新的支持能力,推动数字孪生地球发展,更好地服务社会需求和国  家战略。  中国科学院动物研究所李鑫等以生命科学领域单细胞组学数  据为切入点,介绍了国内外生命科学领域数据开放发展态势。国际  上合作开展的人类细胞图谱数据库为探索和理解人体细胞的多样  性和复杂性,促进单细胞生物学和医学研究的发展,以及实现利用  人工智能解析基因功能与复杂生物过程,提供了宝贵的资源。我国  单细胞组学数据开放与利用也取得了显著进展,包括生命领域科  学数据的标准化收集与整合、高质量开放共享体系构建与高水平  数据赋能生命科学研究等方面的实践探索。未来,我国将构建更高  质量的生命科学数据开放体系,迎来数据、智能联合驱动的生命科  学研究新范式与高质量数据开放共享协同发展。  前言  于贵瑞 中国科学院院士、中国科学院地理科学与资源研究所研究员 周园春 中国科学院计算机网络信息中心副主任、研究员 中国科学院文献情报中心刘筱敏对中国数据论文现状进行分  析。梳理了我国数据期刊的创办、相关政策及数据论文标准规范的  制定情况,认为这些积极的政策条件,引导了我国数据论文出版  的新发展。以Web of Science为数据源,观察和分析了中国学者  和机构发表数据论文的贡献。从数据论文发表国别来看,中国发  表2092篇论文,位列全球第二;从全球数据论文发表机构来看,中  国科学院位列全球第二。我国的国际合作论文较多,占论文总数  45.1%,覆盖了135个国家/地区,其中中美合作发表的论文占全部  国际合作论文的49.1%。中国发表的数据论文引用频次较高,篇均  被引21次,但主要引用来自中国学者,影响力的广泛性有待进一  步提升。总体来看,全球数据论文发展仍在起步阶段,发文数量少  且国家分布不均匀。但数据论文因其严格的同行评议、灵活的开放  获取、详尽的数据描述等机制优势,势必将对科研和社会发挥重要  作用。  中国科学院计算机网络信息中心王姝等介绍了我国科技资源  标识服务平台建设,重点分析科技资源标识在不同领域的应用探  索情况,如大科学装置领域的数据溯源与可追溯性、科研资源共享  与整合、科研趋势分析与预测,生物多样性领域的数据标准化与规  范化、数据共享与整合、科普教育与公众参与。预测未来的科技资  源标识会更加智能化、数字化和标准化:通过科技资源标识与人工  智能深度融合,标识系统将更加智能化,应用于自动标注、智能检  索和个性化推荐;通过标识标准和规范建设,提高系统间的互操作  性,提升资源使用效率和准确性。  施普林格·自然Niki Scaplehorn探讨了人工智能在促进开放  科学方面的作用。生成式人工智能的快速发展,可以帮助作者更便  捷地生成高质量、结构化的元数据。另外,生成式人工智能与其他  技术相结合,可以用来准确识别论文稿件中的数据类型,区分新生  成的或重复使用的数据,检查是否符合数据政策,并辅助作者编写  全面的数据可用性声明。此外,施普林格自然正在探索人工智能的  更大潜力,使作者更容易发表数据论文,并提高其的可见度。虽然  技术本身并不能解决开放科学的难题,但是人工智能技术可以帮  助作者更好地遵守期刊数据共享政策,减轻编辑和作者的工作负  担,提高论文质量,并最终推进科学发现。

Proposal:

回望过去一年,中国开放数据事业在多方共同努力下取得了  显著进展,展现出了蓬勃的生命力和广阔的发展前景。中国学者对  开放数据的支持热情持续高涨,期刊和出版商的数据政策在推动  数据共享方面发挥了越来越重要的作用。多家国家科学数据中心  等机构在各自领域的数据开放共享方面开展了大量实践探索,取  得了显著成效。这些机构不仅推动了数据的标准化、规范化和高质  量开放共享,还通过研发数据分析工具、建立云平台等方式,为科  研人员提供了便捷的数据获取和利用途径。此外,中国数据论文的  发展也呈现出良好的态势,为全球数据论文的发展贡献了中国智  慧和力量。  我们相信,随着数据政策的不断完善、开放数据存储库的建设  推广、学者们对开放数据的认可度不断加强以及人工智能技术的  不断发展,我国开放数据事业将迎来更加广阔的发展前景。我们将  继续秉持开放、共享、合作的理念,推动数据资源的充分利用和价  值最大化,为科技创新和社会发展注入新的动力和活力。