Google Analytics是如何获取你的网页浏览数据

Google Analytics是如何获取你的网页浏览数据

相信很多人对“大数据杀熟”都有切肤之痛的体会。上某猫某狗的时候,明明同一款产品,iPhone 用户就会比Android 用户多交钱; 许多产品/服务的优惠券都是新用户比老用户拿得多,拿得频繁;自己不过是浏览了某些购物网页,以后几天每天都在搜索引擎首页上看到这个商品的广告。时间长了,不禁让人心生疑惑,所谓的“大数据”到底是怎么收集我的个人信息的?


Google Analytics是谷歌公司出品的,针对网站流量,渠道,客户行为模式进行收集数据并作分析的一个工具,它可以和Google Adwords, Google Tag manager, Google Search 等关联使用。通过追踪cookies, GA可以获取特定的用户的来源,行为模式以便针对这种用户采取特定的营销方式(区别定价,区别优惠等狗套路)。

本文将简要的介绍一下GA的原理,功能, 以及总结怎样避免被GA追踪到。

1. 原理

注册GA以后,根据商家需求,比如,旅游网站想监测游客感兴趣的目的地和旅行类型,会生成一个Javascript的追踪代码,加在要观察的网站上的特定位置,比如这里是加在《详情》这个按钮上。当用户点击这个按钮的时候,他所查看的旅行目的地等信息就会被收集起来。


为了对用户进行标记,每个用户访问网站的时候,追踪代码会将域名作为网站的定义,生成一个cookies 到用户的浏览器里。其中“点击" (hit)会发送到GA里, 它是一个包含许多用户的信息的URL,比如用户的来源,语言,浏览器类型,操作系统,还有随机生成的用户身份代码。这些构成用户的维度。

GA会生成一个列表,储存所有的用户代码。用户访问网页时,追踪代码会获取他们的用户代码。对于已存的代码,会识别为老用户。相反,新的代码,会识别为新访客。如果用户换用浏览器,或者换用设备登陆同一个网页,将会识别为不同的用户。同样的,如果用户清理掉浏览器的cookies,或者禁止cookies,当用户再次登陆时,以前的用户代码也将无法识别到这个用户,也就是说,该用户将作为新用户被识别。

”点击“分为网页浏览、事件, 电子商务交易和社交互动等。 每当一个网页加载出来,GA就会收集并更新用户数据,以30分钟为一个周期分组数据。这个周期叫做会话(session),一个会话包括一连串的网页浏览、事件、社交互动和电子商务交易等用户行为。当用户打开一个有追踪代码的网页开始计时,持续不活动30分钟后一个会话结束。如果用户还在该页面,那么一个新的会话就会开始。但是仍会识别为同一个用户。

GA可以追踪在一个会话里用户的每个行为。比如谷歌网店的页面在“续订”, “购买”, “播放视频”这些板块都设置了追踪代码,那么当用户点击这些版块的时候,追踪代码都会将这一行为录入,并传给GA。


比如,网页浏览是每开一个新的商品页面,该商品的名字就会被记录。用户点开视频,这是一个事件点击,事件点击包含四种信息: 类别,行为,标签,值。这四个变量都会被导入GA中生成报告。社交点击是点赞,转发等行为。商品交易点击是购买商品付费的行为。

这些点击提供的信息足以构成区分用户的标准。比如可以过滤出安卓用户。

还可以采用dynamic remarketing, 筛选出特定的用户群体, 比如连续一个月以上没有访问网站的用户,针对他们发放相应的优惠码。确保这些优惠码只有这些用户能够看见。


GA还可以通过一些额外渠道收集信息,比如测量协议(measurement protocol),和其他Google账号。测量协议可以接受其他能联网的设备收集的数据,比如销售点系统,或者能联网的公共电话亭。其他Google账号包括Google Adwords, Google Adsense, Google Search等等。总之,通过这些收集数据的方法,GA将这些数据按照维度分类,分门别类的放在统计报告里,供商家研究。

2. 功能

那么收集了这么多数据以后,GA将用这些数据干什么呢?

先介绍一下GA的数据结构。在GA里,所有的数据是通过维度(dimension)和指标(metric)存储的。维度和指标形成一个个表。维度的每个值是表的每一行,每个指标是表的每一列。维度和指标也有三种范围: 用户范围,点击范围 和 会话范围。用户范围举例来说就是用户的类型,点击范围可以是网页的名字,会话范围可以是设备类型。GA将相同范围的维度和指标组织在一起,不同范围的维度和指标不能同用。

根据收集到的数据,GA有四种报告。包括用户(User),获客(Acquisition),行为(Behavior),和转化(Conversion)。

2.1 用户

对于用户,最重要的三大指标莫过于黏性,活跃,产出。GA 在用户报告中,除了基本的用户地理位置,人口结构,设备,兴趣点等信息,还会给出1日活跃用户,7日用户,14日用户和1月用户的时序图, 据此可以看出网站的黏性。针对活跃性的考量,GA也给出了各会话区间的用户的平均会话时长和平均访问网页数量。对于不同类型的用户,GA都会列出产出作为评价的指标,这些产出包括:总交易量,交易总金额,交易率等。比如,对于新老用户,一个基本的报表如下:

可以看出,老用户比新用户的产出高,活跃性高。

2.2 获客

GA记录着每个用户访问网页的媒体和来源,这些媒体包括:Organic(无付费渠道,比如谷歌搜索),CPC(付费广告渠道), Refer(友情网站链接), 邮件, None(直接输入url)。来源就是具体的搜索引擎名字,或者邮件营销代码等。

最合适的评估各个来源的有效性的指标之一就是跳出率(bounce rate)。跳出率是指出率是指在只访问了入口页面就离开的访问量与所产生总访问量的百分比。 GA提供对每个来源的跳出率的比较。

可以看出,youtube 的友情链接的跳出率最高。

2.3 行为

行为报告中显示了一些重要的用户行为。比如用户行为流 追踪用户从入口页面开始都进行了哪些活动。可以了解特定来源的用户的需求是什么,他们下一步想要做什么。

还有,对网站的一些关键页面的用户表现,比如入口页面,退出页面的跳出率等等。此外,GA还对每个页面的平均加载时间进行统计。如果一个页面的加载时间长,跳出率高,那么这个页面就是需要进行完善的。

商家还可以对于他们认为重要的按钮设置成事件,比如联系我们,订阅等等。

2.4 转化

商家常常针对一些行为设置一些目标,比如购买,订阅等。如果这些目标实现了,那就可以称之为一次转化。GA帮助商家将他们的商业目标量化为GA目标,转化报告里详细记载了各个目标的转化情况。除了设置目标,商家还会设置目标漏斗,就是为了实现当前目标所需要的步骤。GA会对目标漏斗进行可视化,因为进行到下一步的用户会越来越少,所以图形会像一个漏斗,这样的图也被称为漏斗图。根据漏斗图,商家可以知道在哪一个环节用户流失的最多,从而加强对那个环节的把控。


3 避免追踪

知道了GA的原理以后,想逃避GA的追踪就很简单了。既然GA主要靠嵌入网页的JavaScript代码,我们可以有以下方法阻止这段代码。

i. 用防火墙阻止GA域名: google-analytics.comwww.google-analytics.com

ii. 用Host 文件将GA域名添加为不存在的IP地址,这样任何请求都不会被发送到Google.

iii. 用 Script Blocker 或任何使JavaScript 无效的插件。

既然我们知道新用户比老用户更容易获得优惠,我们也可以利用这点,反将一军,把自己包装成新用户。方法包括但不限于:

i. 定期清理游览器cookies

ii. 换用不同的浏览器访问网页。

iii. 使用不同的设备,手机,笔电,平板换个遍。

iv. 注册不止一个账号,定期换账号,然后等着接受针对你的”荒废“账号的赎回优惠吧~

编辑于 2018-07-21

文章被以下专栏收录