Tsing Tools
首发于Tsing Tools

文献引文分析利器 HistCite 详细使用教程(精简易用免安装版本 HistCite Pro 首发页面)

申明:本文是 HistCite Pro 唯一官方发布页面,从本文链接下载的软件绝无病毒!如果遇到杀毒软件的误报,请放心添加信任!请不要从其他下载站下载本程序!

如果你选修过中国科学技术大学罗昭锋老师的《文献管理与信息分析》,那么你一定不会对HistCite 感到陌生,这是一款非常强大的引文分析工具,可以快速绘制出某个研究领域的发展脉络,快速锁定某个研究方向的重要文献和学术大牛,还可以找到某些具有开创性成果的无指定关键词的论文。

如果说一次引用表示给你的文章投一票,那么并不是所有票都有效,只有相同领域文章的引用才能真正体现你在这个领域中的实力。所以在 Web of Science (以下简称 WOS)上按照被引次数倒序排列,越靠前不一定就越重要。还有一种情况,你发明了某种材料,但是后来名字变了,之后的文章使用的关键词都是新名字,别人搜新名字的关键词是搜不到你的开创性文章的,但是很显然你的文章是非常重要的。通过 HistCite 可以直观的看出这个研究领域的论文全部引用了你的文章,可以体现你的文章的重要性。


好了,下面开始使用这个工具。首先要了解一点,HistCite 这款软件是 Thomson Reuters (汤森路透)公司开发的,和 WOS 是一家公司,所以 HistCite 只支持 WOS 数据库,对于 Scopus 等数据库则无能为力,不过 Github 上面有人写了一个可以将 Scopus 导入 Histcite 进行分析的脚本——Scopus2Histcite,有兴趣的同学可以去试试看。

2016年10月,汤森路透知识产权与科技业务被 Clarivate Analytics (科睿唯安)公司收购了,从此 WOS 也是归该公司所有,因此导出的数据纯文本也发生了些许变化,从而不能直接导入 HistCite 进行分析。不过别担心,HistCite Pro 完全兼容新的文件格式!


打开WOS,注意数据库要选择核心合集(Core Collection)


例如简单检索一下石墨烯在锂离子电池负极中的应用:


检索结果不是太多,可以全部导出,如果文献太多的话,可以先按照被引频次降序排列,只导出前2000篇就差不多了。


下面开始导出文献信息,点击页面上的【保存至 Endnote Online】按钮右边的下拉按钮,选择【保存为其他文件格式】。


在弹出的菜单中,记录数填写1到500,因为每次最多只能导出500篇文献,所以上面的2819篇文献需要分成6次导出,后面导出的时候依次填写501到1000、1001到1500等等。。。记录内容选择【全记录与引用的参考文献】,文件格式选择【纯文本】,然后点击发送即可得到导出的 txt 文件,类似可以导出其他5个。

注意:含500个记录的txt文档一般是3M左右,如果你的只有几百K,请仔细按照上面这张图进行导出!!!


下面使用 HistCite 来分析这6个txt格式的引文数据文件。由于 HistCite 多年不更新,现在存在各种 Bug,比如直接打开 HistCite,一加载文件就报错:No such file or directory。对于这种情况,你可以选择在 C 盘根目录下新建 fakepath 文件夹,然后将全部的 txt 文档复制到里面,再打开 HistCite 来进行加载,但是仍然会遇到下面 Format Unknown 的问题。


尝试第二种方法。选中所有的 txt 文件,然后拖到 HistCite 的图标上,放开鼠标,果然自动打开了软件。


但是,事情好像并没有那么简单,又出现了一个报错:Format Unknown


最后,在罗老师的指引下,我将每个 txt 文件的第一行中的 Science 改成了 Knowledge


然后再将 txt 文件拖放到 HistCite 图标上面打开,终于成功加载了!


可以看到2819篇文献信息全部加载进来了。


在受到这么多折磨之后,我用 Python 开发了一个方便使用的脚步,于是一个以 HistCite 源程序为核心的精简易用免安装版本问世了,就叫 HistCite Pro 吧。


由于 HistCite 源程序只支持 Windows 系统,所以 Pro 版本也只能在 Windows 下使用!

你只需要下载 HistCite Pro 的压缩包(下载链接见文末)并解压(建议解压到 C 盘或者 D 盘的根目录下,保证路径中不含中文),就可以直接用,不需要安装,同时去掉了很多没用的文件,大大缩小了软件体积。对于从WOS上导出的txt数据文件,不用做任何修改,只要把全部的txt放到 TXT 文件夹里面,然后双击 main.exe 即可一键完成加载,非常方便。


好了,数据加载完毕,下面开始分析数据吧,点击 Tools 菜单下的 Graph Maker


在弹出的页面上点击 Make Graph 即可得到一张引文关系图,包含了最有价值的前 30 篇文章的完整引文关系。


这张图看起来不是很清楚,在左边的Size选项中选择 Full 模式,重新绘制一张高清图,然后右击图片“另存为”一张图片即可。

图上有 30 个圆圈,每个圆圈表示一篇文献,中间的数字是这篇文献在数据库中的序号。圆圈越大,表示被引用次数越多。不同圆圈之间有箭头相连,箭头表示文献之间的引用关系。多数情况下,你会看到最上面有一个圆圈较大,并有很多箭头指向这篇文章。那么这篇文章很可能就是这个领域的开山之作

通过我绘制出的这张关系图,我们发现标号为29、49、56、60的四个大圆圈非常显眼,可见这四篇文献的被引次数都是非常高的,我们对全部文献进行按照 LCS 排序,发现前四位刚好就是这 4 篇文献。


再回到那张圆圈箭头关系图,可见石墨烯在锂离子电池负极材料中的应用研究主要起源于2008年(29号文献),其通讯作者Honma来自日本,看来日本在石墨烯电池方面的研究开展得相当早。之后,在2010年,很多原创性的成功迸发而出,具有代表性的就是49、56、60、48号文献,非常有趣的是,2010年诺贝尔物理学奖的获奖项目刚好是石墨烯,其中的关联显而易见。之后的几年,石墨烯在锂离子电池负极方面的研究越来越多,方向约越来越细。

好了,前面提到HistCite可以找到某些具有开创性成果的无指定关键词的论文,我们来看看是怎么办到的。点击页面上的【Cited References】,然后就可以看到本地库中文献参考的全部文献信息,后面带有加号的表示本地txt库中没有包含,这些往往就是被遗漏的重要文献


同样的,我们点击上面的【Authors】按钮,可以找到本领域的一些大牛,具体的操作步骤读者可以自己去摸索。

那么我们怎么把文献记录导出到Endnote呢?首先点击菜单栏中【Tools】下的【Mark&Tag】选项,调出标记选择工具栏。


下图红框内就是标记选择工具栏。左边栏用于指定选择范围,可以选择当前列表中的全部文献,也可以按照序号(#)、LCS、LCR等数值的区间来选择文献,还可以手动勾选需要的文献。中间栏表示的是需要导出的信息范围,可以只导出记录本身,也可以选择导出引用的文献或者被引的文献。右边栏的【Mark】按钮就是确认选择按钮。


所以,我们选择好了需要导出的文献记录,点击【Mark】按钮


然后,我们就会发现上面出现了一个新的标签【Marks】,后面的数字就是我们选中的记录条数,如果发现这个数字不正确,点击【Mark】按钮旁边的【Unmark】来重新选择。确认无误之后,点击图示的【Marks】标签链接,即可显示全部被选的文献记录。


好的,下面依次点击【File】、【Export】、【Records...】来导出选中的文献记录。


成功导出后得到一个 .hci 格式的文本文件,直接修改后缀为 txt。如果导出不成功,一般多尝试几次就可以。


好的,现在我们打开Endnote,依次点击【File】、【Import】、【File...】按钮。


在弹出的对话框中通过【Choose...】找到刚才的txt文件,【Import Option】选择 Multi-Filter (Special),【Duplicates】选择 Import All,然后点击【Import】按钮即可导入。


评论中沈曦同学提到了将 HistCite 选好的文献导入到 Noteexpress 软件里的方法,具体操作是在导入时将过滤器选择为 web of science。

最后附上HistCite里面几个重要的英文缩写(感谢Dingledodies同学):

GCS(global citation score), 某一文献在WOS数据库中的总被引用次数。有些引用这篇参考文献的文章可能和你的研究方向毫无关系,但GCS还是会把这个引用数据记录下来。

LCS(local citation score),某一文献在本地数据集中的被引用次数。因为你导入Histcite的文章都是和你检索词有关系的,可以认为这些文章是你的研究同行,因此如果某一篇文献的LCS值很高,就意味着它是你研究领域内的重要文献,很有可能是你领域内的开创性文章,注意LCS高的文献和GCS高的文献不一定是同一篇!

LCR(local cited references), 某一文献引用本地数据集中参考文献的数目。根据LCR值的排序,可以快速定位近期关注该领域的重要文献,因为某一篇文献引用当前数据集中的文献数越多,说明它非常关注你检索的这个研究方向的文献,和你的研究肯定有相似或者可参考之处,可以从该文章中发现新动向。

CR(cited references), 某一文献引用WOS数据库中参考文献的数目。这个值越高,说明这篇文献很可能是综述性文献,可根据该值的排序,也可快速定位综述文献。


【2016年5月16日更新】

首先给每一位用户朋友真诚地说声谢谢!同时感谢罗老师的大力推广!

不过,也有少数用户反馈了这个软件存在的问题:HistCite可以启动,但是不会自动打开浏览器窗口,或者打开的是一个空白窗口,或者可以打开窗口但是显示的条目数为0,即没有成功导入数据


这个问题的根源,其实是HistCite本身存在的设计缺陷(毕竟这么多年没有更新了),在少部分电脑上会出现导入数据不成功或者打不开窗口的情况。所以我研究了另外一种导入数据的方法,并采用Python的多线程成功实现了ADV模式,基本可以解决绝大部分兼容性问题。


如果你的电脑不存在上述兼容性问题,你不用在乎这个 ADV 模式,直接输入YES即可完成数据的读取。如果你的电脑出现了上述导入不成功的问题,你就可以输入ADV回车之后会读取 txt 文件,然后自动启动 HistCite 内核。


HistCite 启动之后会自动打开一个IE内核的浏览器窗口(记为 A 窗口),而这个窗口显示我们导入的 Records 数量为0,即没有成功导入数据。所以在 ADV 模式下,HistCite Pro 会自动调用系统默认浏览器在 5 秒后再打开一个窗口(记为B窗口)进行数据的导入,等导入完成之后,你可以将 A 窗口关闭,在 B 窗口里面分析数据,或者按 F5 键刷新 A 窗口也是可以分析数据的。

注意:在ADV模式下,程序所在路径中的所有文件夹和文件的命名都不能含有中文


【2016年5月18日更新】

评论中部分人反映在使用过程中遇到问题,很多都是由于自己操作不当导致的,要么是数据库没有选择【核心合集】,要么是导出txt的时候没有选择【全记录与引用的参考文献】,如果还是导出不成功,请使用【ADV】模式。

所以请大家使用之前仔细阅读上面的说明,而不是把时间浪费在无意义的错误之中。如果没有时间看这篇文章,也可以看看评论,有没有发现你一样的问题,提问的时候尽量描述清楚你遇到的问题是什么,而不是一上来就抱怨这个抱怨那个,这也是每一个知乎人最基本的素养吧。

希望大家使用顺利!祝各位科研成功!


【2017年10月15日更新】

首先感谢在支付宝平台和知乎平台上打赏支持的各位朋友!

目前为止,百度网盘中 HistCite Pro 的下载次数和保存次数总和已经超过一万次!感谢广大用户的信任!特别感谢美国、俄罗斯、加拿大、英国、德国、新加坡、法国、日本、韩国、澳大利亚、爱尔兰、荷兰、瑞典、丹麦、泰国、印度尼西亚、挪威、香港、澳门、台湾等地区用户的支持!


最近也看到一些网站(例如 360doc)在没有经过我允许的前提下复制转载了本文的部分或者全部内容,更有甚者说成是自己的成果,还有人对内容进行了胡乱修改,看到自己辛辛苦苦总结的东西被修改得一塌糊涂,真心很气愤!因此,如果您想要转载本文,请务必和我取得联系,并在显眼处贴出本页面的链接:zhuanlan.zhihu.com/p/20,感谢您在版权保护方面做出的努力!

之前看到 360 个人图书馆网站的一个用户 “薄荷馍馍” 整篇转载了本文(链接),于是我向网站提出举报,结果邮件被驳回,还要求我提供一大堆的身份证明以及填写各种表格,这太没道理了!


于是一气之下,我通过各种检索分析找到了这个用户的联系方式,最后与她取得联系,成功将其转载的内容设置为仅她本人可见。


另外,还有不少的下载站将 HistCite Pro 压缩包进行二次加工再供网友下载,这大大降低了用户体验,甚至有些无良下载站上还放置了很多的病毒软件误导用户下载!所以如果您是下载站的管理员的话,恳请您考虑采用以下两种方案之一:

1. 如果您的网站支持的话,直接将页面上的下载链接全部跳转到官方网盘链接pan.baidu.com/s/1hsIwJz),因为 HistCite Pro 以后可能会不定期升级,到时候老版本不一定可以正常工作。为了保证贵站软件的最新性,跳转到官方网盘下载是最好的选择,这样不仅不会影响网络流量,还可以节省您的网络带宽。具体可以参考121下载站的做法:121down.com/soft/softvi


2. 如果您的站点 CMS 有限制,必须使用压缩包的话,那就直接将百度网盘的地址写到一个 txt 文档里面,然后做成压缩包供大家下载即可。具体可以参考 UCBUG 游戏网的做法:ucbug.com/soft/77090.ht



【2018年5月9日更新】

最近有多位用户反馈 Histcite Pro 2.0 出现了打开速度过慢的问题,光标一直在闪烁,但迟迟不出现提示信息,甚至出现了无法正常使用的情况,在这里我向大家致以诚挚的歉意!

距离上个版本(2.0)的发布有两年了,在上个版本中,我加入了云端收集用户 IP 地址的功能,主要是了解用户的覆盖情况,不过后来接收信息的服务器接口关闭了,所以该功能其实一直也处于报废状态,而这不怎么影响用户使用,所以也没有进行版本更迭。但是最近由于获取 IP 的 API 频频出现故障,导致软件打开时一直在尝试连接,从而导致程序卡顿。

为了更好的提高用户体验,在 2.1 版本中我彻底删除了这个云端收集信息的功能,因此程序彻底成了本地程序,不仅体积有所减小,运行速度也得到了提升。大家遇到问题可以去网盘下载最新版使用。


HistCite Pro 网盘下载链接:pan.baidu.com/s/1hsIwJz

编辑于 2018-05-09

文章被以下专栏收录

    本专栏的宗旨是科普,主要分享一些对大家有用的工具或者方法,可能文章深度不是那么深,毕竟大部分文章的目的是让大多数人都能看懂并学到知识。