Dealing With Bots: A COAR Resource for Repository Managers

Time:2026-01-30
Keywords:

image.png

近年来,学术知识库管理者们面临着一个日益突出的难题 ——爬虫访问量激增。有的爬虫是“友军”,比如搜索引擎、内容聚合工具,能帮知识库提升内容曝光度;但有的“恶性爬虫”却异常激进,不仅大量抢占资源,甚至导致知识库服务中断。面对这一困境,国际开放获取知识库联盟(Confederation of Open Access RepositoriesCOAR展开了专项行动,近期推出了针对知识库管理者的“COAR爬虫应对网站”。



一、现状警报:恶性爬虫带来的双重危机


2025 年初,COAR 针对全球学术知识库做了一次调研,并在当年6月发布《AI 机器人与爬虫对开放知识库的影响(The impact of AI bots and crawlers on open repositories: Results of a COAR survey)》报告。结果令人忧心:

1.恶性爬虫引发流量海啸

不少开放获取知识库遭遇大量激进爬虫的攻击—— 它们疯狂抓取内容,导致网络请求量暴增,已有部分知识库因不堪重负直接瘫痪。

2.防护措施反而 “误伤友军

为了抵御恶性爬虫,有些知识库采取了限制访问、拦截请求等措施,但却不小心误伤了良性爬虫,比如帮助内容被搜索到的搜索引擎爬虫。甚至影响了人类用户的正常访问。更棘手的是,这两个问题还伴随着以下挑战:

  • 原本用以约束行为的协议,正被越来越多爬虫绕过或忽略;

  • 恶性爬虫越来越会伪装,模仿人类访问模式,让人机区分难度飙升;

  • 人机难区分还导致知识库的使用数据(如访问量、内容传播度)统计失准;

  • 恶性爬虫开发者与防护者之间形成军备竞赛,防护难度持续升级。



二、应对方式:一份动态更新的实战资源


了帮知识库管理者破局,COAR 专门成立了应对工作组,而这次推出网站,就是该组的核心成果。当前网络环境已变,知识库未来仍需长期面对“良性与恶性爬虫并存”的现状。管理者的核心任务,是在“保护系统不被恶性爬虫压垮”和“维持开放访问”之间找到平衡。资源站内容按照CC-BY 4.0协议开放,可自由分享、使用,但需注明来源。这份资源站的价值在于:

  • 提供策略建议,帮管理者结合自身知识库情况做决策;

  • 鼓励分享经验,以社区共建的方式共同让这份指南不断完善。

未来,知识库管理需精准平衡系统安全防护与开放访问的核心使命,同时依托 COAR 这类社区共建的动态资源平台,积极共享实践经验、共筑应对策略,方能推动学术资源的安全开放与可持续发展。


新闻内容来自以下网站,不代表GoOA头条立场:

https://dealing-with-bots.coar-repositories.org/