外文期刊选择中的数据分析

外文期刊选择中的数据分析 张军 zhangjlib@zju.edu.cn 2012年10月25日@昆明

外文期刊评价 • 百年华文目录

外文期刊评价 • 全球目前共有连续出版物260000种（一说42万种） • 中国高校订购的外文期刊约40000种 • （乌利系期刊指南，高校外文期刊预订联合目录，CALIS引进数据库）

在2003年,纸电捆绑仍是主流 纸本与电子捆绑: 订电子出版物前须先订纸本纸电分离: 允许可以只订购电子出版物，不需订纸本

纸降电增，势不可挡 2012年纸电分离:允许只订购电子出版物，不一定必须订纸本纸本与电子捆绑: 订电子出版物的前提须先订纸本

图书馆经费占全校支出的比例逐年下降

中国高校订购人文社科类外文期刊情况分析 • 数据来源： • 1、中国高校人文社会科学文献中心期刊目录 • 2、全国高校图书馆进口报刊预订联合目录 • 3、中国图书进出口（集团）总公司报刊目录 • 4、哈佛大学、普林斯顿大学、斯坦福大学、耶鲁大学、牛津大学和剑桥大学馆藏得人文社科英文期刊目录

到2009年8月止，我国高校馆藏人文社科外文印刷版期刊8749种，其中纯印刷版5210种，印刷版与电子版均订购的有3539种。

学科不平衡情况严重： • 经济、社科总论、政治法律等类期刊占61%；而哲学、语言、文学、艺术和历史类的人文学科期刊仅占30%。

全国高校馆藏哲学、社科总论、政治法律、经济、文教、语言、文学、艺术、历史、工具书等10个类别的印刷版期刊，品种数量仅为英美6校同类别印刷版期刊的15.51%，占中图网上公布目录中同类别期刊的15.45% • 我国高校人文社科外文印刷版期刊各学科馆藏量规模仍然偏小。

纠结 • 增 • 减 • 判断标准？

影响因子会终结吗？ Nature,2000,403:478

影响因子会终结吗？ Nature,2001,411:522

影响因子会终结吗？ 事实情况如何呢？ 11年过去了，不仅传统的影响因子没有终结，还涌现出很多基于引文的新型的期刊评价指标。二维评价指标：IF5、h指数及类h指数二维：期刊发文量、引文量三维评价指标：SJR指数、特征因子及论文平均分值、SNIP 三维：期刊发文量、引文量、引用期刊的声望、学科间的差异

IF5 IF5＝5-Year Impact Factor (JCR2009年新增指标)；该刊前5 年发表的论文在当前年的平均被引用次数. • 2004～2008年发表的论文在2009年的总被引次数 • IF5 （2009）= • 2004～2008年刊载论文数

IF5 IF5 ≠5年的影响因子的平均值例：MIS QUARTERLY IF5(2009)=9.208；5年的影响因子的平均值5.08

IF5 优点：（1）计算方法简单易于理解。　　　（2） IF5能衡量期刊论文较长期影响力，有望改进传统IF不能较好地衡量被引高峰出现较晚的期刊论文学术影响力的问题。案例研究：　　（1）　Della Sala和Crawford（2009）研究发现，IF5比IF2更适合神经心理学领域的期刊评价。 • 　　（2）比较SSCI收录的ILS期刊发现，在具IF5的54种期刊中，41种期刊的IF5大于IF2，1种相等，12种期刊的IF5小于IF2。说明总体而言，IF5比IF2更适合该领域期刊的评价。

IF5 journal information. 缺点：　　　（1）新入选期刊至少要入选6年后才产生5年影响因子，过于漫长，对于期刊编辑和读者都是一种折磨；　　　（2）“奖少罚多”：IF5排名前10种期刊中有8种都是刊载论文数量较少的综述类刊物；　　　（3）未控制期刊自引率，期刊可以通过增加自引来提高影响因子； (4)　只考虑期刊的被引次数,不考虑每条引文的价值，忽视引文所在期刊的质量等。

IF5 值得进一步探讨的问题： 5年是否是最佳统计期？ IF2和IF5分别适合哪些学科？

h指数、G指数、相对h指数 h指数的提出： Jorge Hirsch，加州大学圣地亚哥分校物理学家《PNAS》，2005 　目的：用于评价科研人员学术成就一位作者的H指数定义为其发表了H篇至少被引用了H次的论文

h指数应用于期刊： Tibor Braun，匈牙利科学院科学计量学专家（1980年曾任匈牙利科学院图书馆的副馆长，化学教授，科学计量学先驱之一，1986年第三届普赖斯奖获得者）《Scientist》，2005 　　　他指出：h指数用于期刊评价与用于个人成就不同的是，不是评价其累积成就，而应限定一个时间窗口，最短可以是一年。

h指数、G指数、相对h指数 期刊h指数的定义：　　一种期刊的h指数是指该期刊在某个时间窗口刊载的n篇论文中, 最多有h篇论文每篇论文的引文数最少为h次。期刊h 指数的确定方法：　　　　确定某一引文数据库，查出某期刊某一时间窗口发表的所有论文, 按被引次数从高到低排列，往下核对,直到某篇论文的序号大于该论文被引次数,该序号减去1 就是该期刊在该时间窗口的h指数。

h指数、G指数、相对h指数 SSCI收录的65种ILS领域期刊的h指数分布：发文时间窗口：2004－2008年　　数据库访问时间：2010年9月5日

h指数、G指数、相对h指数 期刊h指数的优点：　（1）非常容易确定；　（2）通过载文量和引文量相结合来评价期刊，通过自引提高h指数不容易达到目的。期刊h指数的缺点：　　（1）奖多罚少，不利于载文量少而平均被引频次高的综述类期刊；　　（2）所有引用同等对待，不区分引用是来自质量高的论文还是质量差的论文；（3）不能体现高被引论文的影响力；　　　（4）只能以整数表示，区分度低。

h指数、G指数、相对h指数 G指数的提出：文献计量学专家Leo Egghe博士（2006）　　　　　比利时Hasselt University图书馆馆长，2001年与Ronald R. Rousseau同获普莱斯（Price）奖 G指数可体现高被引论文对期刊的贡献。期刊G指数的计算方法：将期刊若干年被引频次按照降序排列，并将序号进行平方运算，将被引频次逐一累加，当且仅当平方数值等于或小于累积被引频次时，这个数值就是此种期刊某年的G 指数。 G指数≥h指数

h指数、G指数、相对h指数 期刊相对h指数: 　　　即将该刊某时间窗口的h指数除以该时间窗口载文量。　目的在于排除期刊载文量对h指数的影响，从而可以相对　客观合理地对期刊学术影响力进行评测。 Ronald R. Rousseau，国际著名信息计量学专家，2001年获普莱斯（Price）奖。1977年获得Leuven大学数学博士学位，1992年又获得Antwerp大学图书馆学与情报学博士。比利时布鲁日-奥斯坦德天主教高等教育学院（KHBO，Catholic School for Higher Education Bruges-Ostend）副教授。

Google 提供了灵感 • Page Rank算法

PageRank根据网站的外部链接和内部链接的数量和质量衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank根据网站的外部链接和内部链接的数量和质量衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。 • 在互联网上，如果一个网页被很多其它网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。对来自不同网页的链接对待不同，本身网页排名高的链接更可靠，于是给这些链接予较大的权重。

SJR指数 SCImago Journal Rank（SJR指数） 2008年由西班牙SCImago Research Group提出， SJR指数的特点：衡量了期刊的声望，其基本假设是，一种期刊越多地被高声望期刊所引用, 则此期刊的声望也越高。　基于SCOPUS数据库。

SJR指数数学定义

SJR指数 SJR指数的算法： • SJR 使用类似于Google网页排名的PageRank算法； • 给予来自高声望期刊的引用更高的权重； • 利用期刊之间的引用关系来计算期刊的重要性：将期刊A 引用期刊B 的次数解释为期刊A 对期刊B 所投的票数。期刊B 在期刊A 处得到的分数＝期刊A 的得分 × 期刊A 对期刊B 所投的票数

SJR指数 SJR指数的优点: 　　（1）考虑了引文期刊的质量，更加科学合理；　　（2）对期刊自引的处理较为合理，设置了自引率限值（33％）；　　（3）免费、数据公开透明、刊源范围广。　不少专家认为SJR将会有力挑战ISI的垄断地位！ SJR指数的缺点: 　　（1）计算复杂，难以验证。

SJR指数 • http://www.scimagojr.com/journalrank.php

特征因子与论文影响分值 特征因子（Eigenfactor）的提出: • 由华盛顿大学和加州大学圣塔芭芭拉分校的J.D. West ，T.C. Bergstrom等人组成的研究团队构建。 • 　　基于Web of Science 基本思路：考虑不同影响力期刊的引用权重，通过引文构建起文献引用网络，对期刊的影响力进行评价。 • 　特征因子及其衍生指标论文影响分值(Article Influence Score) 已经于2009 年1 月被应用到JCR中。

特征因子与论文影响分值 特征因子的定义: • 　　假设一位研究者随机选择某年(比如2007年)出版的一份刊物的某篇论文，任意选择该文章的一篇参考文献，跟随引文链接进入下一份期刊，然后从这份期刊中再任意选择一篇文章，继续随机选择引文进入下一份期刊，研究者不停地重复这个行为，很显然，如果这个动作无限地进行下去，越是影响力大的期刊，研究者进入的次数越多。研究者进入某个期刊几率的百分值，就是该期刊的特征因子分值。　　例如，2008年Nature的特征因子分值是1.76407，表明研究者在JCR收录的SCI和SSCI文章中按照上述的模式进行漫游，有1.76407％的几率进入Nature。特征因子的计算: West和Bergstrom通过构建JCR收录期刊(包括SCI和SSCI)剔除自引的5年期引文矩阵，用类似于PageRank的算法迭代计算出期刊特征因子。

特征因子与论文影响分值 特征因子的优点: 　　（1）考虑了引文期刊的质量，更加科学合理；　　（2）统计数据基于web of science数据库，保证了统计数据的权威性；　　（3）以五年作为引文时段，能衡量期刊论文较长期影响力；　　　（4）免费、数据公开透明。

特征因子与论文影响分值 特征因子的缺点: （1）计算复杂，需借助软件实现，难以难证；（2）完全排除期刊自引，未包含合理自引。 (3)　会受到期刊刊文数量的影响，不适合评价“小而精”的期刊。 • CA: A Cancer Journal for Clinicians: • IF2(2009)=87.925(No.1)，特征因子＝0.04224(No.438)。 • (4) 区分度低:

特征因子与论文影响分值 论文影响分值(Article Influence Score，AIS): AIS用于评价期刊论文的平均影响力；计算方法: 论文影响分值的平均值=1 >1: 期刊中每篇论文的影响力高于平均水平 <1: 反之则表明期刊中每篇论文的影响力低于平均水平《Reviews of Modern Physics》的AIS(2009)为24.369: ---该刊每篇文章的影响力是JCR收录期刊平均值的24倍左右。 • 特征因子 • AIS= • 该刊发表论文占所有论文的比例

特征因子与论文影响分值 • http://www.eigenfactor.org/

SNIP • Source normalized impact per paper • 篇均来源期刊标准影响 • SNIP=RIP（篇均粗影响）/RDCP（数据库相对引用潜力）

1、延长引用区域，降低不同主题领域引用行为的差异1、延长引用区域，降低不同主题领域引用行为的差异 • 2、采用全新的学科区间界定方法，利于跨学科期刊和综合性期刊的评价

期刊评价新指标主要特征比较

期刊评价新指标研究的误区 JASIST, 59(13):2186–2188, 2008 JASIST, 61(9):1800–1807, 2010

期刊评价新指标研究的误区 两个因子相关系数高并不意味着两者可以相互取代。

两个因子相关系数高并不排序一致性高。

TOP期刊 • 快速提高声望

所属学科： 电力电子工程纳米科学与纳米技术光学应用物理学多学科物理学遥感电信学

期刊来源：JCR，SCOPUS 按照上述指标，取排名前10%，组合去重。得到60种备选（TOP）期刊

外文期刊选择中的数据分析

外文期刊选择中的数据分析

Presentation Transcript