Publisher:NATURE
Year of release:2015
Issuing country, region or organization:
Research Questions:Developing an open and transparent scientific evaluation process and system
Conclusion:
十项原则
1)定量评估应支持定性专家评估。定量指标可以挑战同行评审中的偏见趋势,并促进审议。这应该加强同行评审,因为如果没有一系列相关信息,很难对同事做出判断。然而,决不能试图让评估人员将决策权让给数字。指标不得取代知情判断。每个人都对自己的评估负责。
2)根据机构、团体或研究人员的研究任务来衡量绩效。方案目标应在开始时说明,用于评估绩效的指标应与这些目标明确相关。指标的选择及其使用方式应考虑到更广泛的社会经济和文化背景。科学家有各种各样的研究任务。推进学术知识前沿的研究与专注于为社会问题提供解决方案的研究不同。审查可以基于与政策、行业或公众相关的优点,而不是学术卓越理念。没有单一的评估模型适用于所有上下文。
3)保护当地相关研究的卓越性。在世界许多地方,卓越的研究等同于英语出版物。例如,西班牙法律规定了西班牙学者在高影响力期刊上发表文章的可取性。影响因子是根据总部位于美国且仍然以英语为主的科学网索引的期刊计算的。这些偏见在社会科学和人文学科中尤其成问题,在这些领域,研究更多地参与区域和国家。许多其他领域具有国家或区域层面——例如,撒哈拉以南非洲的艾滋病毒流行病学。
这种多元化和社会相关性往往被压制,以创建高影响力的看门人感兴趣的论文:英语期刊。科学网中受到高度引用的西班牙社会学家研究过抽象模型或研究美国数据。迷失是社会学家在高影响力的西班牙语论文中的特殊性:当地劳动法、老年人家庭医疗保健或移民就业等主题5。基于高质量非英语文学的指标将有助于识别和奖励当地相关研究的卓越表现。
4)保持数据收集和分析过程的开放、透明和简单。评估所需的数据库的构建应遵循研究完成前制定的明确规则。这是几十年来建立文献计量评估方法的学术和商业团体的常见做法。这些小组引用了同行评审文献中发布的协议。这种透明度允许审查。例如,2010年,关于我们其中一个小组(荷兰莱顿大学科学和技术研究中心)使用的一个重要指标的技术特性的公开辩论导致对该指标的计算进行了修订6。最近的商业进入者应该遵守相同的标准;任何人都不应该接受黑匣子评估机器。
简单性是指标中的优点,因为它提高了透明度。但简单的指标可能会扭曲记录(见原则7)。评估者必须努力保持平衡——忠实于研究过程复杂性的简单指标。
简单性是指标中的优点,因为它提高了透明度。
5) 允许被评估者验证数据和分析。为了确保数据质量,书目测量研究中包含的所有研究人员都应该能够检查他们的输出是否被正确识别。每个指导和管理评估过程的人都应该通过自我验证或第三方审计来确保数据的准确性。大学可以在他们的研究信息系统中实现这一点,这应该是选择这些系统提供商的指导原则。准确、高质量的数据需要时间和金钱来整理和处理。预算。
6)在出版和引用实践中按领域划分的差异。最佳做法是选择一套可能的指标,并允许字段从中进行选择。几年前,一组欧洲历史学家在国家同行评审评估中的评分相对较低,因为他们在科学网索引的期刊上写书而不是文章。历史学家不幸成为心理学系的一员。历史学家和社会科学家要求将书籍和国家语言文献纳入其出版计数;计算机科学家要求计算会议文件。
引用率因领域而异:排名靠前的数学期刊的影响因子约为3;细胞生物学排名靠前的期刊的影响因子约为30。需要标准化指标,最强大的归一化方法基于百分位数:每篇论文根据其所在领域的引用分布中所属的百分位数(例如,前1%、10%或20%)进行加权。一份被高度引用的出版物略微改善了大学在基于百分位数指标的排名中的地位,但可能会将大学从基于引用平均值的排名的中间推向顶部7。
7)根据对单个研究人员投资组合的定性判断对其进行基础评估。你年纪越大,即使你没有新论文,你的指数也越高。h指数因领域而异:生命科学家最高200;物理学家100岁,社会科学家20-30岁(参考8)。它依赖于数据库:计算机科学研究人员的h指数在科学网中约为10,但在谷歌学者9中的h指数为20-30。阅读和判断研究人员的工作比依赖一个数字要合适得多。即使比较了大量研究人员,最好考虑更多关于个人专业知识、经验、活动和影响力的信息的方法。
8)避免错位的混凝土和虚假的精度。科学和技术指标容易产生概念上的模糊性和不确定性,需要没有被普遍接受的强有力的假设。例如,引用计数的含义早就存在争议。因此,最佳实践使用多个指标来提供更稳健、更多元化的画面。如果不确定性和错误可以量化,例如使用错误条,这些信息应伴随已发布的指标值。如果做不到这一点,指标生产商至少应该避免虚假的精度。例如,期刊影响因子发布在小数点后三位,以避免联系。然而,鉴于引用计数的概念模糊性和随机变异性,根据很小的影响因素差异来区分期刊是没有意义的。避免错误的精度:只需要小数点后一点。
9)认识到评估和指标的系统性影响。指标通过它们建立的激励措施改变了系统。这些影响应该是可以预期的。这意味着一套指标总是更可取的——一个指标将导致游戏和目标位移(其中测量成为目标)。例如,在20世纪90年代,澳大利亚使用主要基于研究所发表的论文数量的公式资助大学研究。大学可以在参考期刊上计算论文的“价值”;2000年,研究资金为800澳元(2000年约为480美元)。可以预见的是,澳大利亚研究人员发表的论文数量有所增加,但它们出现在引用较少的期刊上,这表明文章质量下降了10。
10)定期审查指标并更新它们。研究任务和评估目标转移与研究系统本身共同发展。曾经有用的指标变得不足;新的指标出现了。指标系统必须经过审查,也许可以修改。意识到其简单公式的影响,澳大利亚于2010年推出了更复杂的澳大利亚卓越研究计划,该倡议强调质量。
Proposal:
遵循这十项原则,研究评估可以在科学的发展及其与社会的互动中发挥重要作用。研究指标可以提供难以通过个人专业知识收集或理解的关键信息。但绝不能允许这些定量信息从仪器演变成目标。
最佳决策是通过将可靠的统计数据与对被评估研究的目标和性质的敏感性相结合来做出的。需要定量和定性证据;每种证据都是以自己的方式客观的。科学决策必须基于高质量的过程,这些过程以最高质量的数据为依据。