Tsing Tools
首发于Tsing Tools
文献引文分析利器 HistCite 详细使用教程暨 HistCite Pro 首发页面

文献引文分析利器 HistCite 详细使用教程暨 HistCite Pro 首发页面

说明:这个知乎专栏是 HistCite Pro 唯一官方发布页面,从本文链接下载的软件绝无病毒!如果遇到杀毒软件的误报,请放心添加信任!请不要从其他下载站下载本程序!
有任何问题请到我的微信公众号“科研利器”反馈。

如果你选修过中国科学技术大学罗昭锋老师的《文献管理与信息分析》,那么你一定不会对HistCite 感到陌生,这是一款非常强大的引文分析工具,可以快速绘制出某个研究领域的发展脉络,快速锁定某个研究方向的重要文献和学术大牛,还可以找到某些具有开创性成果的无指定关键词的论文。

如果说一次引用表示给你的文章投一票,那么并不是所有票都有效,只有相同领域文章的引用才能真正体现你在这个领域中的实力。所以在 Web of Science (以下简称 WOS)上按照被引次数倒序排列,越靠前不一定就越重要。还有一种情况,你发明了某种材料,但是后来名字变了,之后的文章使用的关键词都是新名字,别人搜新名字的关键词是搜不到你的开创性文章的,但是很显然你的文章是非常重要的。通过 HistCite 可以直观的看出这个研究领域的论文全部引用了你的文章,可以体现你的文章的重要性。


好了,下面开始使用这个工具。首先要了解一点,HistCite 这款软件是 Thomson Reuters (汤森路透)公司开发的,和 WOS 是一家公司,所以 HistCite 只支持 WOS 数据库,对于 Scopus 等数据库则无能为力,不过 Github 上面有人写了一个可以将 Scopus 导入 Histcite 进行分析的脚本——Scopus2Histcite,有兴趣的同学可以去试试看。

2016年10月,汤森路透知识产权与科技业务被 Clarivate Analytics (科睿唯安)公司收购了,从此 WOS 也是归该公司所有,因此导出的数据纯文本也发生了些许变化,从而不能直接导入 HistCite 进行分析。不过别担心,HistCite Pro 完全兼容新的文件格式!


打开WOS,注意数据库要选择核心合集(Core Collection)


例如简单检索一下石墨烯在锂离子电池负极中的应用:


检索结果不是太多,可以全部导出,如果文献太多的话,可以先按照被引频次降序排列,只导出前2000篇就差不多了。


下面开始导出文献信息,点击页面上的【保存至 Endnote Online】按钮右边的下拉按钮,选择【保存为其他文件格式】。


在弹出的菜单中,记录数填写1到500,因为每次最多只能导出500篇文献,所以上面的2819篇文献需要分成6次导出,后面导出的时候依次填写501到1000、1001到1500等等。。。记录内容选择【全记录与引用的参考文献】,文件格式选择【纯文本】,然后点击发送即可得到导出的 txt 文件,类似可以导出其他5个。

注意:含500个记录的txt文档一般是3M左右,如果你的只有几百K,请仔细按照上面这张图进行导出!!!


下面使用 HistCite 来分析这6个txt格式的引文数据文件。由于 HistCite 多年不更新,现在存在各种 Bug,比如直接打开 HistCite,一加载文件就报错:No such file or directory


尝试第二种方法。选中所有的 txt 文件,然后拖到 HistCite 的图标上,放开鼠标,果然自动打开了软件。


但是,事情好像并没有那么简单,又出现了一个报错:Format Unknown


在受到这么多折磨之后,我用 Python 开发了一个方便使用的脚步,于是一个以 HistCite 源程序为核心的精简易用免安装版本问世了,就叫 HistCite Pro 吧。


由于 HistCite 源程序只支持 Windows 系统,所以 Pro 版本也只能在 Windows 下使用!

你只需要下载 HistCite Pro 的压缩包(下载链接见文末)并解压(建议解压到 C 盘或者 D 盘的根目录下,保证路径中不含中文),就可以直接用,不需要安装,同时去掉了很多没用的文件,大大缩小了软件体积。对于从WOS上导出的txt数据文件,不用做任何修改,只要把全部的txt放到 TXT 文件夹里面,然后双击 main.exe输入数字 1 即可一键完成加载,非常方便。(下面是整个操作过程的动图,点击播放)


如果输入数字 1 发现没有自动打开浏览器窗口,或者打开的是一个空白网页,或者可以打开网页之后显示的条目数为0首先检查一下前面的导出操作没有错误,然后看一下自己的 IE 浏览器能不能正常打开百度等网页,如果 IE 浏览器有故障,可以参考这个链接进行修复。

如果还不行,那就是 HistCite 内核本身存在的设计缺陷(毕竟这么多年没有官方更新了),在少部分电脑上会出现兼容性问题。所以我采用 Python 的多线程成功实现了Advanced 模式,基本可以解决绝大部分兼容性问题,即输入数字 3

注意:在该模式下,程序所在路径中的所有文件夹和文件的命名都不能含有中文


该模式启动之后会自动打开两个浏览器窗口,先打开默认的 IE 浏览器窗口(记为 A 窗口),一般显示的 Records 数量为 0,然后 5 秒之后会调用系统默认浏览器(推荐安装 Chrome 浏览器并设置为默认)打开另一个窗口(记为 B 窗口),一般在 B 窗口就可以正常进行数据的导入。等导入完成之后,你可以将 A 窗口关闭,在 B 窗口里面分析数据,或者刷新 A 窗口也是可以分析数据的。


好了,数据加载完毕,下面开始分析数据吧,点击 Tools 菜单下的 Graph Maker


在弹出的页面上点击 Make Graph 即可得到一张引文关系图,包含了最有价值的前 30 篇文章的完整引文关系,这个数字 30 是可以自行修改的


这张图看起来不是很清楚,在左边的Size选项中选择 Full 模式,重新绘制一张高清图,然后右击图片“另存为”一张图片即可。

图上有 30 个圆圈,每个圆圈表示一篇文献,中间的数字是这篇文献在数据库中的序号。圆圈越大,表示被引用次数越多。不同圆圈之间有箭头相连,箭头表示文献之间的引用关系。多数情况下,你会看到最上面有一个圆圈较大,并有很多箭头指向这篇文章。那么这篇文章很可能就是这个领域的开山之作

通过我绘制出的这张关系图,我们发现标号为29、49、56、60的四个大圆圈非常显眼,可见这四篇文献的被引次数都是非常高的,我们对全部文献进行按照 LCS 排序,发现前四位刚好就是这 4 篇文献。


再回到那张圆圈箭头关系图,可见石墨烯在锂离子电池负极材料中的应用研究主要起源于2008年(29号文献),其通讯作者Honma来自日本,看来日本在石墨烯电池方面的研究开展得相当早。之后,在2010年,很多原创性的成功迸发而出,具有代表性的就是49、56、60、48号文献,非常有趣的是,2010年诺贝尔物理学奖的获奖项目刚好是石墨烯,其中的关联显而易见。之后的几年,石墨烯在锂离子电池负极方面的研究越来越多,方向约越来越细。

好了,前面提到HistCite可以找到某些具有开创性成果的无指定关键词的论文,我们来看看是怎么办到的。点击页面上的【Cited References】,然后就可以看到本地库中文献参考的全部文献信息,后面带有加号的表示本地txt库中没有包含,这些往往就是被遗漏的重要文献


同样的,我们点击上面的【Authors】按钮,可以找到本领域的一些大牛,具体的操作步骤读者可以自己去摸索。

那么我们怎么把文献记录导出到Endnote呢?首先点击菜单栏中【Tools】下的【Mark&Tag】选项,调出标记选择工具栏。


下图红框内就是标记选择工具栏。左边栏用于指定选择范围,可以选择当前列表中的全部文献,也可以按照序号(#)、LCS、LCR等数值的区间来选择文献,还可以手动勾选需要的文献。中间栏表示的是需要导出的信息范围,可以只导出记录本身,也可以选择导出引用的文献或者被引的文献。右边栏的【Mark】按钮就是确认选择按钮。


所以,我们选择好了需要导出的文献记录,点击【Mark】按钮


然后,我们就会发现上面出现了一个新的标签【Marks】,后面的数字就是我们选中的记录条数,如果发现这个数字不正确,点击【Mark】按钮旁边的【Unmark】来重新选择。确认无误之后,点击图示的【Marks】标签链接,即可显示全部被选的文献记录。


好的,下面依次点击【File】、【Export】、【Records...】来导出选中的文献记录。


成功导出后得到一个 .hci 格式的文本文件,直接修改后缀为 txt。如果导出不成功,一般多尝试几次就可以。


好的,现在我们打开Endnote,依次点击【File】、【Import】、【File...】按钮。


在弹出的对话框中通过【Choose...】找到刚才的txt文件,【Import Option】选择 Multi-Filter (Special),【Duplicates】选择 Import All,然后点击【Import】按钮即可导入。


评论中沈曦同学提到了将 HistCite 选好的文献导入到 Noteexpress 软件里的方法,具体操作是在导入时将过滤器选择为 web of science。

最后附上HistCite里面几个重要的英文缩写(感谢Dingledodies同学):

GCS(global citation score), 某一文献在WOS数据库中的总被引用次数。有些引用这篇参考文献的文章可能和你的研究方向毫无关系,但GCS还是会把这个引用数据记录下来。

LCS(local citation score),某一文献在本地数据集中的被引用次数。因为你导入Histcite的文章都是和你检索词有关系的,可以认为这些文章是你的研究同行,因此如果某一篇文献的LCS值很高,就意味着它是你研究领域内的重要文献,很有可能是你领域内的开创性文章,注意LCS高的文献和GCS高的文献不一定是同一篇!

LCR(local cited references), 某一文献引用本地数据集中参考文献的数目。根据LCR值的排序,可以快速定位近期关注该领域的重要文献,因为某一篇文献引用当前数据集中的文献数越多,说明它非常关注你检索的这个研究方向的文献,和你的研究肯定有相似或者可参考之处,可以从该文章中发现新动向。

CR(cited references), 某一文献引用WOS数据库中参考文献的数目。这个值越高,说明这篇文献很可能是综述性文献,可根据该值的排序,也可快速定位综述文献。


重要的补充说明:

有很多人反馈的使用故障,其实都是由于自己操作不当导致的,要么是 WOS 数据库没有选择【核心合集】,要么是导出txt的时候没有选择【全记录与引用的参考文献】,或者根本不看使用说明就想当然操作,例如自己到 core 文件夹中打开内核文件或者把 main.exe 单独拿出来运行。

所以请大家使用之前仔细阅读上面的说明,而不是把时间浪费在无意义的错误之中。如果没有时间看这篇文章,也可以看看评论中有没有类似问题的解答

如果确实遇到问题,可以到我的微信公众号“科研利器”中留言,提问的时候尽量描述清楚你遇到的问题是什么,有截图或者视频最好,而不是一上来就抱怨这个抱怨那个,这也是每一个人最基本的素养吧。

希望大家使用顺利!祝各位科研成功!


感谢在支付宝、微信以及知乎平台上打赏支持的各位朋友!

目前,百度网盘中 HistCite Pro 的下载次数和保存次数总和已经超过四万次!感谢广大用户的信任!

最近也看到一些网站在没有经过我允许的前提下复制转载了本文的部分或者全部内容,更有甚者说成是自己的成果,还有人对内容进行了胡乱修改,看到自己辛辛苦苦总结的东西被修改得一塌糊涂,真心很气愤!因此,如果您想要转载本文,请务必和我取得联系,并在显眼处贴出本页面的链接:zhuanlan.zhihu.com/p/20,感谢您在版权保护方面做出的努力!

另外,还有不少的下载站将 HistCite Pro 压缩包进行二次加工再供网友下载,这大大降低了用户体验,甚至有些无良下载站上还放置了很多的病毒软件误导用户下载!所以如果您是下载站的管理员的话,恳请您考虑采用以下两种方案之一:

1. 如果您的网站支持的话,直接将页面上的下载链接全部跳转到官方网盘链接pan.baidu.com/s/1hsIwJz),因为 HistCite Pro 以后可能会不定期升级,到时候老版本不一定可以正常工作。为了保证贵站软件的最新性,跳转到官方网盘下载是最好的选择,这样不仅不会影响网络流量,还可以节省您的网络带宽。具体可以参考121下载站的做法:121down.com/soft/softvi


2. 如果您的站点 CMS 有限制,必须使用压缩包的话,那就直接将百度网盘的地址写到一个 txt 文档里面,然后做成压缩包供大家下载即可。具体可以参考 UCBUG 游戏网的做法:ucbug.com/soft/77090.ht


HistCite Pro 网盘下载链接:pan.baidu.com/s/1hsIwJz

备用下载源:lanzous.com/i2jvwba

编辑于 2018-12-07

文章被以下专栏收录

    本专栏的宗旨是科普,主要分享一些对大家有用的工具或者方法,可能文章深度不是那么深,毕竟大部分文章的目的是让大多数人都能看懂并学到知识。