数据采集器圈子的竞品分析

数据采集器圈子的竞品分析


笔者介绍:

人称兔哥,85年苦逼金牛座,像牛牛一样在舆情大数据圈子、企业大数据圈子、公安大数据圈子里作为产品狗奋斗了很多年。Coding能力一般但是比较容易理解研发人员想法,一直在努力协调领导、销售、研发的矛盾。


一、谈谈大数据现状

既然谈到了大数据(其实我很不好意思叫大数据,因为一般能接触到的数据量真的没有那么大),就得谈一下获取数据的渠道。我的调研不够充分,但是大体上来说有以下渠道:

1, 产品自身获取

这个通常包括产品本身产生的数据、用户注册产生的数据、埋点采集到的数据、简单的二次分析获得的数据等等;

2, 网络公开数据采集

不论愿意与否,电脑网页、Wap页面、手机APP上充斥各类数据,淘宝有电商数据、国土资源有土地交易数据、动漫网站有动画下载链接数据、微博有社交用户数据。它们或多或少都是公开出来的,网络采集工具和爬虫主要就是进行这些数据的采集;

3, 市场上购买的数据

目前市面上有不少数据交易网站了,比如数多多、发源地。国家也建设了一些大数据交易中心,但是目前鸡肋化的问题有以下几点:

  • 数据价值难以判断。数据并没有对标方法,也不能说用1万条数据换xx个鸡蛋。数据就是个虚拟物品,价值不可测。尤其是因为变数太多(比如数据细度、数据完整度、数据时效性等),导致数据的价值更加不可琢磨;
  • 数据质量评价起来很难。上面也说了,变数太多导致很难说某个数据包是否真的满足用户需求。质量的难以评价导致客户付费购买数据的时候更加的不舍得掏钱;
  • 原始数据愈发廉价。原始数据也就是没有经过再加工或者数据分析的数据,这部分数据噪声多、不完整性高、时效性也可能很低,这就导致这类数据,看着量很大,但是实际上价值并不高,因为获取难度低所以充斥各类市场;
  • 数据的防盗版、篡改、复制能力太差。数据本身就是个表格,不管是数据库形式还是Excel、CSV,都很容易被二次转手卖给别人。这里很痛苦,没有办法做什么类似正版游戏的DRM验证之类的,当别人拿到数据的时候,他们就可以“恣意妄为”了;
  • 欺骗人的数据越来越多。大家也许很奇怪,数据欺骗人是神马?但是可能也不奇怪,毕竟很多人都写过文章,关于数据陷阱。



论大数据的泡沫、价值与应用陷阱


数据陷阱种类太多,接触量不够的我实在分析不过来。简单来说数据可以偷换名词,下单量并不是最终交易量;也存在炒作情况,一大堆所谓的网红,谁不知道后面是一堆托和水军营造的舆论数据;也存在假数据情况,并不一定是网站恶意造假,可能只是当判断这是个爬虫的时候,估计提供假数据;等等情况。这些情况都导致我们采集到的数据是不真实的,可能会直接把我们坑进去。


这里也顺便罗列一下数据的大致分类:

社交网络、金融财经、电商购物、汽车数据、工作职业、房产数据、健康医疗、旅行户外、科研分析、资讯新闻、阅读读书、娱乐休闲、体育运动、生活日常、游戏竞技、影视数据、教育培训。


接下来谈一下数据变现,这是个复杂又头疼的问题(我又想说这是个玄学问题了)。首先是变现就意味着出售,出售就意味着市场和需求决定了价值。那么到底有哪些需求呢:

  • 我是学生、研究人员,我需要数据写论文;
  • 我是市场人员,我需要搜集营销可以用到的数据(说白了就是手机号);
  • 我是产品狗,我需要竞品数据;
  • 我是运营喵,我需要用户数据、运营推广数据;
  • 我是领导,我需要各类数据,然后我逼迫手底下人去搞……
  • 我是数据分析师,没数据我分析个P……
  • 我是电商,我需要知道价格和市场变化,同行业的变化数据;
  • 我是投资人/股票疯子/用钱赚钱狂魔,我需要各类金融数据指导我的投资;
  • 我是ZHENG FU,我需要数据进行可视化展现,好提升业绩和装13;
  • 我是机器学习和深度学习专家,我需要高质量的数据用来训练模型。

等等,需求太多,数不过来。既然需求这么明确,变现也就没什么问题了,各行各业对应的都会有人出来找数据,或者通过关系,或者通过数据交易网站,或者通过论坛,或者通过马云家……


二、业内主要几个竞品汇总

我在之前的一篇文章里把几个公司的数据做了罗列和对比,这里再简单贴一下:


八爪鱼

深圳视界信息技术有限公司

法人:刘宝强,成立日期:2012年12月28日,注册资金约131万,所属地区-深圳市

融资:2015年12月,天使轮-百万级;2016年8月,Pre-A轮,百万级

一句话特点:市面上最直观可视化且高自由度的采集工具。


神箭手

杭州快忆科技有限公司

法人:吴桐 ,成立日期:2015年11月24日,注册资金约100万,所属地区-杭州市

融资:不详,没有确切消息

一句话特点:入门门槛最高但是自由度最大的采集平台。


造数科技

北京造数科技有限公司

法人:黄震昕,成立日期:2016年10月14日,注册资金约100万,所属地区-北京市

融资:2016年10月,天使轮-百万级

一句话特点:入门门槛最低且颜值最高的采集平台。


发源地

上海连源信息科技有限公司

法人:马建军,成立日期-2015年9月8日,注册资金约128万,所属地区-上海市

融资:2015年9月,天使轮-百万级;2017年5月,Pre-A轮-千万级

一句话特点:努力做个采集市场,但是也没忘记采集工具的网站。


火车头

合肥乐维信息技术有限公司

法人:李进斌,成立日期-2008年7月28日,注册资金约100万,所属地区-合肥市

融资:不详,不确认是否获得融资

一句话特点:最老牌的主流采集工具,也是最“软件”感的采集工具。


集搜客

深圳市天据电子商务有限公司

法人:华天清,成立日期2011年7月14日,注册资金300万元,所属地区-深圳市

融资:目前没有融资信息

一句话特点:操作和起名最让我头疼的采集工具……(个人意见)


三、产品功能对比

以上是数据采集界的主流公司。下面是功能分析,这里需要说明一下,因为我是个人评测,没有办法用到付费的高级功能,所以有些项目会不准。不欢迎吐槽,但是欢迎建议修正……


PS:这个分析的Excel表格我会作为个人持续更新,不过不会提供下载,如果是感兴趣的业内人士请加入我的QQ群交流。


这张图直接来看并不合理,为什么这么说呢,因为人无完人,软无完软,每个软件或平台都有自己的特点,很难直接比对分析,对标的软件也不尽相同。我们这样来看会比较好:(集搜客因为用不惯暂时不在分析范围里)

  • 八爪鱼和火车头都是采集工具,并不是平台,属于直接对标产品;
  • 神箭手和造数都是采集平台,并不是工具,属于直接对标产品。造数和国外的Import IO属于直接对标产品;
  • 发源地倾向于数据市场,本身应该对标数多多,不过我这篇文章不做分析,因为这篇文章主要分析采集工具/平台。


各个平台都在飞速发展,功能也一步一步改进,需要大家以包容的心态看待产品。


四、产品流程图对比

八爪鱼基本流程图

神箭手基本流程图

造数基本流程图

流程上我就不做过多解释了,毕竟几句话就想解释清楚人家开发这么久的工具/平台,本身就是个不科学的事情。




五、盈利模式对比

八爪鱼

个人用户可以利用积分很快的开始使用,甚至可以说不花钱也能搞定很多采集。八爪鱼宗旨是让更多人用起来,对采集量有需求的用户重点推广旗舰版以上具备云采集功能的版本。企业版我个人认为推广难度较大,大多数企业还是倾向于以项目形式合作,所以八爪鱼本身也会有不少项目需求。对八爪鱼来说,2B和2C两个市场可以兼顾。


神箭手

个人用户也可以比较容易上手,但是只限于用别人开发好的爬虫。想自定义的话,上手门槛非常高,属于核心向产品。大部分好用的爬虫都需要高级的账户和IP代理,所以神箭手很难个人免费使用。目标用户更加2B化,一定程度上局限了客户数量,但是高端用户和技术型公司会更感兴趣。本身平台属性非常高所以企业项目需求量应该也不会小,就看该公司是否愿意多接了。


造数科技

目标用户目前并不是太明确,虽然网络文章上说的是目标帮助企业解决数据问题,但是本质上来说,现在的造数非常面向C端。简单易用的采集,直观的界面操作,高颜值让这个工具成了新的小白福音。但是因为没有充值按量付费功能,只能包月购买,失去了获取只打算临时或偶尔用用的C端用户的机会。对于B端,采集平台只是证明公司有数据获取能力,剩下的就看就看商务能力和数据质量了。


六、SWOT分析




七、结尾

为了写这篇分析,我调研了不少数据,也准备了一阵子。这里特别感谢我在数据圈子里的朋友们,以下排名不分先后:


八爪鱼创始人 刘宝强 Keven http://www.bazhuayu.com

神箭手创始人 吴桐 http://www.shenjianshou.cn

造数科技创始人 黄震昕 https://zaoshu.io

绿盾公司创始人 丁大强 http://lvdun.net



www.iparen.com 爱爬人-数据爱好者之家

兔哥数据极客俱乐部QQ群:群号:462346024

知识星球付费群:t.zsxq.com/EI6YvVj

知乎专栏:zhuanlan.zhihu.com/geek

简书专题:jianshu.com/c/35e005b03

文章被以下专栏收录