|
中国高被引学者榜单的开发思路与方法
程莹
在全球化和知识经济时代,国际竞争的本质是科技实力和创新能力的较量,提升科技实力和创新能力,教育是基础,关键在人才。改革开放以来特别是20世纪90年代以来,中国的科学研究事业开始进入高速增长的轨道,研究成果在国际上的显示度、影响力和认可度也不断提升,这些进步的取得,离不开一批通晓国际学术规范、具有国际学术影响、获得国际同行认可的领军人才的卓越贡献。为了发现找到他们,上海软科教育信息咨询有限公司开发了遴选方法和标准,基于客观引用数据对中国学者在世界范围内的影响力进行了系统的分析。爱思唯尔作为合作方,利用其旗下的Scopus数据库和文献数据处理能力为该榜单研究提供了数据支持和技术实现,最终得到了2014年中国高被引学者(Most Cited Chinese Researchers)榜单,将1651名最具世界影响力的中国学者呈现给了学术界和公众。以下是榜单开发的基本思路和方法。
遴选中国高被引学者的基本指标
一名学者学术水平的高低,最重要的是看他/她做出的研究成果对一个学术领域发展所产生的价值和贡献,而研究成果的价值和贡献大小主要取决于学术同行的判断,这里的学术同行不以地区和国家为界,而是指全世界在相同和相近领域从事研究的学者。同行评议不仅是学术界的惯例,也是现代学术体系有效运转和持续发展的核心机制之一。但是随着科学的加速发展,研究经费、研究成果、研究人员的规模都在迅速扩大,而同行评议需要投入大量时间和精力,效率较低,在一些场合不能满足管理者、公众等学术界以外的群体掌握相关信息的需求。另一方面,同行评议也存在弊端,如评价者对研究成果的熟悉程度、评价标准的主观性、不同流派之间的相互排斥、学术权威的不公正等,在中国还存在非学术力量参与甚至操纵学术评价、人情关系的干扰等现象。在这样的背景下,基于文献计量学手段的定量评价方法由于其客观性和经济高效的特点,就显现出独特的优势和价值,并逐渐流行开来。
文献计量学中测量论文的影响力或者质量的基本指标是论文的被引用次数,一名学者的影响力大小,可以根据他/她发表的所有论文获得的引用次数来设计指标测算。测量学者总体影响力的指标可以大致分为两类:一类是直接统计学者发表的所有论文的累计被引次数;另一类是由美国加州大学物理学家Jorge Hirsch在2005年提出的h指数(h-Index),以及其后一些学者在该思路下提出的各种改进指标。H指数的定义是一名研究者在特定时间内发表的论文中至少有h篇的被引次数不低于h,所反映的是研究者发表的影响力在某个水平以上的论文数量,因此同时考虑了论文影响力和数量,具有代表性。但是,H指数对研究者的最高水平成果所产生的影响力不敏感,也就是说,如果一名研究者发表的高被引论文数量不多,即使其中有少数产生了巨大的影响,获得了大量引用,其h指数也不会太高。由于我们希望得到的是那些最具世界影响力的中国学者,这种影响力可以来自于那怕是一篇重要的论文,所以最终没有使用h指数,而是采用计算累计被引次数的方法作为遴选中国高被引学者的基础手段。
共同作者的处理
现代的科学研究需要分工合作,一项研究成果的取得往往来自于许多研究者的共同努力,他们可能来自不同的团队、学科、机构、部门、国家。特别是一些需要投入大量资金的大型基础科学研究工程项目,如“人类基因图谱”、“大型强子对撞机”等,离开了各国科学家的协作,根本不可能完成。在《Science》和《Nature》这些刊载最具原创性的科学发现的顶尖学术刊物上,我们经常能看到一篇论文的作者有几十名甚至几百名。
但是,这种合作行为也为如何对研究者进行合理的评价提出了挑战。一篇文章只有一位作者时,他/她当然是完全的贡献者,而当有多个作者时,如何判断划分他们的贡献有时就会成为一个棘手的问题。这方面的例子,我们最熟知的可能是发生在杨振宁和李政道两位诺贝尔奖得主之间的故事。从科学计量学的角度看,这个问题就演变成一个计算方法的问题,对于一篇有多名作者的论文,主要有两大类统计方法:第一类统计方法保证这篇文献的总权重始终为100%不变,由所有作者按不同的方法分享100%权重,具体有(1)平均法,比如有4名作者的情况下,认为每人对这篇文献的贡献都是25%;(2)唯一法,给予主要作者如第一作者100%权重,其他作者的贡献不予考虑;(3)分享权重法,给予主要作者如第一作者最高权重,如50%,其他作者平均或按一定方法分享剩余权重。第二类统计方法不限定文献的总权重,具体有:(4)人头法,不分先后,认为每位作者对这篇论文的贡献都是100%;(5)累计权重法,给予主要作者如第一作者100%权重,其他作者按一定方法给定权重,如50%、25%、12.5%等。这些方法各有道理,适用于不同的评价目的,计算工作量也有差别,但是当统计对象包含的文献量足够大时,采用不同的方法所得到的结果具有较高的一致性。
针对中国高被引学者的筛选,由于文献总量数巨大,采用“平均法”、“分享权重法”和“累计权重法”都需要考虑每篇文献的作者数和次序,会加重运算负担,同时也不一定会带来更好的结果,因此首先被排除。在“唯一法”和“人头法”两种方法之间,我们最终选择了“唯一法”,原因主要有两点,第一,避免从国际合作中“搭便车”,中国的学术研究在世界上还不是最领先的,中国学者有可能从国际合作中获得与实际贡献不相称的高被引次数,比如,一位中国学者只要能够参与到国外高水平学者主持的项目中,在一篇高被引论文中位列共同作者,采用“人头法”就相当于这位中国学者自己发表了这篇论文并获得所有的引用次数,这样再去比较这位学者和其他的中国学者的总被引次数显然是不合适的;第二,避免从团队合作中“搭便车”,我们希望评选出的高被引学者应当是那些能够在重要成果的完成过程中起主导作用或关键作用的作者,采用“唯一法”可以避免那些重要学者的团队成员主要依靠参加团队负责人的项目作为共同作者,获得很高的被引次数而入选的情况。
此外,通过作者信息来判断一篇论文的最重要的贡献者也并不是完全没有争议的。通常认为论文的第一作者是最重要的贡献者,但是在许多科学领域,论文的第一作者是具体的研究者,而研究的创意和大方向则出自资深的指导者或者团队负责人,这类指导者往往名列通讯作者,他们对论文的贡献也非常重要。考虑到这些因素,我们对“唯一法”进行了进一步改进,将第一作者和通讯作者均视为重要作者,统计一名学者作为第一作者和通讯作者所发表的论文获得的被引次数。
分学科产生中国高被引学者
中国不同学科的发展水平有高有低,国际显示度有大有小,在世界范围内有影响力的学者数量也有多有少。Scopus作为全球最大的文献摘要与引用数据库,收录了2万多种同行评议期刊,其中中文期刊500余种。Scopus数据库中收录文献中,作者地址包括中国(大陆)机构的有300多万份,作者名称达400多万。根据Scopus的学科分类体系,我们统计了各个学科的作者名称分布情况,如下图所示。中国高被引学者榜单的初始总名额被设定为2000人,按照每个学科的作者名称占比,我们计算出每个学科的初始名额分配。接下来,将所有学者划分到其发表论文最多的学科,和其他同学科的学者一起按照被引总次数进行排名,在每个学科按照初始名额保留相应的学者人数,在初始名额不足10人的学科,我们一般保留10位学者。
|
|