首发于泛化智能
憎恨洗稿的创作者,我们为你准备了一个武器

憎恨洗稿的创作者,我们为你准备了一个武器

讨厌辛辛苦苦写的文字,被人拿随便用。

讨厌被人拿去随便用脱离语境之后,还篡改原意洗稿。

最讨厌的还是,当创作者指出这一切的时候,却被倒打一耙:你怎么证明他洗你的稿了?


是啊,怎么证明?最开始直接复制,后来分段复制,到现在洗稿;试图不劳而获之人的手段越发高明。但假的真不了,不论怎么洗,都改变不了抄袭的事实。因为就算用词用句等细节可以改,可是文章的内容、思想以及主旨却是抄袭者无法改变的。

本着这个思路,我们为创作者们制作了一个武器:TeguNLP。毕竟批判的武器不能代替武器的批判,可以把文章列出来一句一句比,也可以用利器来帮助自己。

TeguNLP Prototypetegunlp.giai.tech图标

TeguNLP 可以帮助用户,通过机器学习手段判断两篇文章的相似度。不同于以往的直接比对,TeguNLP 的关注点在于文章的相似性,而不是文字比文字那样的复制粘贴。这种模式更适合检查是否洗稿。


举个例子:

比如 @王路 这篇文章里(王路:咪蒙洗稿了吗?),提到了豆瓣作者 bamboo 认为咪蒙洗稿了她的文章:《口红很贵吗?你为什么不能自己买?》。咪蒙在 bamboo 这篇文章发布一周之后推送了一篇文章:《口红我自己买,你给我爱情就好》。

这两篇文章原文在此:

口红很贵吗?你为什么不能自己买?

口红我自己买,你给我爱情就好

Bamboo 认为咪蒙洗稿了她的文章, @王路 在文章里给 bamboo 支招,该如何有理有据的证明这件事情。现在我们可以给这件事再增加一个证据:

TeguNLP Prototype

首先打开 TeguNLP 的官网,你可以看到这样一个界面。

tegunlp.giai.tech

首先我们把 bamboo 的原文复制进来,复制在左边。然后把咪蒙的文章复制到右面——注意要把她那堆烦人的广告给删了,要不然会影响结果。

点击提交,会发现返回的结果是:「文档相似度为 58.6%」

正常来说,两篇文章就算是同一个主题,文档相似度也应该在 55% 以下。58.6% 的相似度肯定是有洗稿的嫌疑了。

当然,光给个相似度肯定口说无凭,还需要有理由。

点击下载结果,会下载一个 csv 格式的文件——但这个文件是 UTF-8 编码,所以不能直接打开。可以这样做:先打开 Excel,随便新建一个文档。

然后导入文件

选择好 csv 文件之后,选择 UTF-8 这个格式。然后用点下一步打开它。

就能看到机器评判相似度的标准了!

里面会展示出两篇文章的关键词,权重、以及关键词之间的语义相似度,原理是:使用 TF-IDF 算法,各抽取两篇文章前 20 个关键词,然后对关键词之间用词向量做语义匹配。基本假设是如果两篇文章的关键词普遍比较相似的话那么抄袭洗稿的可能性会比较高。

说人话,就是每篇文章都能抽出最具有代表性的关键词,如果两篇文章的关键词很类似的话抄袭的可能性就很高。

再来一个例子:

@NiSS的每日vlog 认为自己被人强行说是洗稿,需要自证清白。

强行说人洗稿,这种套路黑你见过吗?

这种事情也挺烦的,如果是做自己写的文字被人洗稿是第一烦人,那当仁不让的第二位就应该是「明明是自己写的文章却被别人误以为自己洗稿」。

我们把两篇文章放进 TeguNLP,相似度是 44.3%。可见 @NiSS的每日vlog 说的的确是对的,他并没有洗稿,明显是被人误解了。

这就是 TeguNLP,一款给创作者准备的武器与工具。虽然 TeguNLP 不能也没有资格直接下结论是否洗稿,但它的确可以给出一个客观的评判。

TeguNLP Prototypetegunlp.giai.tech图标


TeguNLP 刚刚上线,还有一些不足。欢迎有任何需求意见与建议的话直接联系我们。我们之后会进一步优化报告分析功能,并且持续增强准确性。

By the Way,这款产品的主程是 @到处挖坑蒋玉成。如果你感觉 TeguNLP 在什么时候帮到了你的话,也可以和他说声谢谢:)



对了,总有人问机器学习等 AI 技术能干啥,TeguNLP 就属于「能干啥」的范围。


11.25 更新

这个工具的热度真是出乎意料 XD 根据各位留言的评论,回复几个问题:

  1. TeguNLP 并不是直接查找复制粘贴的查重软件,而是比对文章相似度。所以复制两篇一模一样的文章进入 TeguNLP 意义不大——因为它设计出来就不是干这个事情的。
  2. 有人说 TeguNLP 没有法律效应,这是对的。TeguNLP 只能提供建议,而不能作为证据。轮子哥说 TeguNLP 有的只是宽慰作用。我也很同意;但宽慰作用难道就没用吗?我从正好十年前开始在网上写爬行动物饲养教程,那时候经常被商家和百科洗稿(彼时还没这个词似乎)。我没什么发声渠道,也没人会在意我的文章被人洗了这件事。当时我就在想,只要有什么能站在我这边,告诉我对我文章的认同,那我就很开心了。我并不指望能让洗稿抄袭这两件事消失,但我希望的是能给作者一个宽慰——哪怕是机器,也是有站在你这边的。
  3. 由于相似度比对是通过词向量进行的,词向量之间的相似度可以直接衡量两个词之间的语义相似性,因此通过简单换词是无法混过去的。关于词向量的更多内容可以直接参照知乎上已有的相关资料,比如以下问题: 词向量( Distributed Representation)工作原理是什么?—— @到处挖坑蒋玉成 答复
  4. 关于 55% 的门槛值: 目前这个值暂时是一个经验性的取值,坦率地讲本工具对于过渡区域(相似度在 40%-60%)的文档比对效果确实一般。不过在我们前期的测试中,55% 是一个绝大部分人都能认同的数值。我们接下来还会进一步地对 NLP 模型进行完善,进行粒度更细的段落与段落,乃至词与词之间的详细分析,提高模型的精确程度。
  5. 今后我们将进一步地完善它的报告输出功能,增加尽可能详细地统计信息输出和可视化等部分。 NLP 工具给出的结果,本身并不能直接给出确凿的结论——我们能做的,实际上是给大家提供用来跟抄袭者战斗的弹药,至于具体怎么手撕抄袭着,这个还是需要大家自己来做出判断和决策。

编辑于 2018-11-25

文章被以下专栏收录