喵咪论文
首发于喵咪论文
有没有比sci-hub更好用的论文下载平台?

有没有比sci-hub更好用的论文下载平台?

有,我做的

喵咪论文 - 简单自由的论文下载平台lunwen.im

在国内,我的论文下载体验很糟糕。


sci-hub非常棒,但是最近sci-hub越来越不好使了,不仅域名变来变去,访问速度是越来越慢了。

我只能回到使用学校购买的数据库,真的是非常差的体验。

累觉不爱的图书馆论文下载流程

我要先去学校的官网,点进图书馆主页,找到专门的数据库链接入口(毕竟有时候直接从域名访问还不行,还有我真记不住那些网站的域名)。等论文数据库的loading小圆圈转啊转啊转完,显示是机构登录后,我才算开始了第一步:复制论文标题进去,用食指大力地敲击鼠标---搜索”---仿佛这样能更快一些。

我还太naive了,搜索过程没有哪次不是慢慢慢慢,腾腾的,好像小鸡艰难地啄啄啄啄破了壳才能出来。耐心,在画蛇添足似得地点击“获取原文”时,就被消磨殆尽了,最后我最痛恨的一步出场了---“选择文件保存位置”(有时我只想泛读,却不得不要保存在我干干净净整整齐齐的电脑里。我不得不花上半分钟在文件目录切来切去,绞尽脑汁琢磨着放在哪个文件夹最合适),等到论文下载好后,我才算是可以读论文了。

最可怕的是,许多论文默认文件名还是乱七八糟的,一旦我疏忽设置文件名,等下次我想找也找不到时,只能他喵的再来一遍了....


这篇论文,有时是一篇我正在阅读论文的重要前置引文,有时是一篇标题和摘要读起来超有料的文章,有时甚至是和我的研究内容有严重撞车嫌疑的,我恨不得这篇论文能够以光速在我面前炸开。然而,理想很丰满,现实很骨感,我还是得重复在刚吐槽的检索流程,找不到的话就只能在谷歌学术、sci-hub、oalib、百度等一个接一个尝试了...


想一想,如果不在学校,如果论文不在学校购买数据库内,如果 EI 等索引网站速度还那么慢,如果无法访问谷歌学术 / sci-hub(sci-hub 的可用域名越来越少,而且在国内访问越来越难),如果遇到以上每一个如果,我也只能对着电脑无助的发呆,从厚着脸皮让在校的学弟学妹帮忙下载,到四处寻找谷歌学术镜像,最后绝望的放弃。


我相信的我的体验完全不是孤例,我身边的小伙伴和我有一毛一样的烦恼。


有一天我甚至意识到,糟糕的论文下载体验,已经让我产生论文下载很麻烦的潜意识,进而影响我探索新鲜论文的动力。许多次,因为一篇论文一下子没找到,我放弃了,然后安慰自己:这肯定是篇大水文,不然应该马上就能找到。直到某次我得意鸣鸣地在周会报告我的学术idea时,导师批评我“ XXX 已经把这个思路研究透了,你怎么还在做这个”,那个时候,我很想变成空气..


为什么互联网都这么发达了,我们要忍受这样的体验呢?

作为脑汁就喜茶那么一杯的科研萌新,下载论文的体验烦透我了,我多么希望找论文是一个及其简单、不需要思考的事情,能把所有的精力全部留给论文的理解。


我总结下,一个愉快的论文获取站,只需要认真的做好三步:

理解的论文阅读体验
  1. 输入标题或者 doi
  2. 回车
  3. 立即在线查看论文,也能下载到本地

和四个特性:

  1. 域名好记,可以直接访问,像我就傻乎乎地记不住长长的域名,还要在百度搜索一下
  2. 访问速度快,不用各种复杂的认证
  3. 干脆,能够直接在线看论文
  4. 覆盖论文比较全,速度快


sci-hub近乎完美符合上面的要求,唯一就是最近真的不太平,不仅域名变来变去,速度也越来越慢了。


到底有没有一个替代网站,不仅能覆盖 sci-hub 的功能,也能实现简单、好记、稳定和速度呢?

没找到。


我决定自己动手!毕竟计算机是我的本行,我和实验室的小伙伴花了2周时间,采用了 vue + vue-router + axios + selenium + flask + mongo 等一系列技术栈,基本实现了这样的目标。

技术栈

大致分享一下实现机制:前端、爬虫端和服务器端都进行分离,之间采用 RESTful 架构通信。前端利用 webpack 编译打包静态化,用户访问请求服务端获取数据。服务器端采用 nginx + gunicorn + flask + mongo ,可能不是最理想的搭配,但是作为萌新来说用起来顺手。爬虫架设在实验室的闲置电脑上,selenium+headless chrome进行动态数据的爬取,最后把数据post到线上服务器。selenium + headleass chrome 好处的伪造性比较好,不容易被禁,缺点是资源占用比较高,在扒了百万数据后,实验室机器的chrome就累死了,怎么样也启动不开了,重装也装不好,很无奈。我针对sci-hub嗅探到了一个可用域名池,动态测试域名的连通性,还意外的挖掘到很多未公开的可用域名,速度非常快。

通过定制化的爬虫规则,我的服务已经爬取了足够的论文原链。到现在为止,覆盖了论文数据源不仅仅大名鼎鼎的sci-hub, 一共有:

  • sci-hub
  • oalib
  • findarticles
  • intechopen
  • arxiv

聚合可检索的论文总量超过6千万级。其中重点覆盖了出版机构有:

  • Elsevier
  • Wiley-Blackwell
  • Springer Nature
  • American Chemical Society
  • Cambridge University Press


虽然花了两周做了一件“以前又不是下不到论文”的事情,但是我还挺有成就感。这份成就感来源于,我们实验室都集体用上了这个工具(对,他们平时甩都不甩我的,现在用我开发的软件,有种实验室称王称霸的感觉)。甚至,越来越多其他组的同学特地凑过来问我,怎么访问这个的论文服务啊?

每次分享都需要手动发送内网 IP,弄得我应接不暇。独乐乐不如众乐乐,我干脆自费购买了域名和服务器,把这个服务免费开放出来,希望能改善所有人阅读论文的体验(很大方有木有)。

网站截图

链接在此:

喵咪论文 - 简单自由的论文下载平台lunwen.im

域名非常好记,就是论文的双拼,由于是新网址,百度应该还没有收录,所以大家可以最好记住域名直接访问。网站的中文名字是“喵咪论文”,至于为什么这么叫,包括其他彩蛋,可以参见喵咪论文FAQ


简单介绍一下怎么使用的吧,非常方便:

在搜索框输入你任何你想看的论文,比如前不久大热的 Nature 文章< Mastering the game of Go without human knowledge >,中文译名<人工智能从0-1自学打败阿法狗 >

输入全文标题

然后回车(当然点击那个搜索图标也可以),一小会儿,论文就来了,直接默认显示全文!

直接查看论文

左边是类似的论文,都可以点击查看。

PS. 目前论文标题的搜索还不是特别强大,建议最好输入全文标题,而且更精准的方式的是输入论文的 doi 。比如 < Mastering the game of Go without human knowledge > 的 doi 是< 10.1038/nature24270 >

输入doi
直接查看论文

这样的论文阅读体验会不会变得real简单?


综上,我实现了一个real简单的论文获取工具,实现了对 oalib、findarticles、intechopen 特别是 sci-hub 的全覆盖,如果你是以上数据库的用户,你可以直接使用 喵咪论文 lunwen.im

当然,学术论文获取的可选项还有谷歌学术、百度学术等强大的工具,希望能成为你的一个补充。

另外,我深知我和我的朋友仅仅做了非常微不足道的工作,实现了一个很多大佬可能几天就能搞定的技术,即使爬虫的规则很麻烦,多源数据还需要去重、清洗和合并,即使这是我通宵几个晚的成果,但更伟大的是这些论文开放数据库,他们一直在推广学术开放的一线,而我只是将他们的服务聚合起来,更方便国人使用罢了。


最后真诚希望对大家有所帮助,这是一个聚合开放论文数据库的网站,定位是简单自由的论文下载平台。由于移动端适配不佳,手机看到这篇文章的朋友可以点赞收藏起来,在电脑上访问体验。网站还比较粗糙,而且中文论文还在建设中,有任何问题和Bug都可以私我。


祝学术顺利,Enjoy。

https://lunwen.im

发布于 2018-05-11

文章被以下专栏收录