2019腾讯广告算法大赛入门-Part2(初赛生存篇)

2019腾讯广告算法大赛入门-Part2(初赛生存篇)

写在前面

初赛A榜即将结束,同时组队时间也快要结束,对于还未组队的小伙伴,我的建议找些分数差不多的童鞋组队,自己的思维总是局限的,组队后不仅可以提分,还能交流学习。

正文

初赛最后阶段至关重要,我觉得有三件事情一定要做

1. 多关注群消息

2. 寻找合适队友

3. 最后尝试机会

多关注群消息

(字里行间都是戏)

qq群是大佬飙戏的地方,当然也会有很多有用的信息,这就需要我们多加留意。

  • 模型+规则,能上天

可能很多人一开始只是使用模型去上分,却忽略的规则的重要性,我和队友对比过lgb和nn结果差异很大,可是融合并没有上分,这也说明了模型结果其实很差的。可是和规则融合却能从87+提升到88+。同时群里很多大佬给出了规则方法,以及如何进行模型与规则的融合。

规则方法:历史平均来填充旧广告id的曝光量,新广告id曝光量用广告size、商品id等特征对应历史平均来填充。调整单调性。

规则方法:前一天的曝光量来填充旧广告id的曝光量,新广告直接填充0。调整单调性。

模型+规则:直接加权融合,或者模型结果填充新广告id的曝光量,规则结果填充旧广告id的曝光量。

更细致的方法需要你来挖掘!!!

  • userdata用了能提分

这个用了确实上分了,而且是非常的高的,准确的说是用了用户id的信息,其它并没有用。所有用到userdata里面其它信息的同学请联系我哦!

寻找合适队友

最近在排行榜可以看到很多分数相同的队伍,这也说明大佬们已经确定自己的队伍了,作为初次参加比赛的童鞋们也该找自己的队伍了。正所谓“不是一个人的王者,而是团队的荣耀”,我钻石二求三排,那么来了两个青铜可以三排打排位吗?或者两个王者的三排打排位吗?显然不行,段位相差太多!(杠精请闪远,你是小姐姐我也没办法)所以你要在群里找和你分数差不多的童鞋组队。

那么队伍成员分数都很一般就没有翻盘机会了吗?并不一定,方法是寻找有差异的队友,比如你是树模型,你就可以找做规则的童鞋,或者是做nn的。毕竟lgb+规则能提升近1个点,也就是从86到87,87到88。

最后尝试机会

未到最后,每个人都是有机会进去复赛的,或许前排都过拟合A榜也说不定呢。

我的建模思路

我的是18w左右的训练集,广告id的选取来自广告操作表,然后再构造日曝光量。具体操作如下:

1.将广告操作表中update_time==0的出价、定向人群、投放时段信息与广告静态表merge。

2.对日志数据中的广告id构造日曝光量得到新的数据集data。

3.将data与广告静态表进行merge,并给缺失的投放时段填充-999,这里并未将投放时段展开。

4.data=data.loc[(data.投放时段!=-999)]

这样下来就会有和我一样的训练集了,当然可能不适用每个人,毕竟比起大多数人这个操作时非常粗糙的。

看到这里了记得给一个赞哦!!!(想要的分享我都可以考虑更新的)

写在最后

知乎专栏目的传播更多机器学习干货,比赛方法。欢迎投稿!

编辑于 2019-08-19 08:13