RecSys2019参会总结

RecSys2019参会总结

导读:今年的ACM RecSys于9月16日至20日在美丽的丹麦首都哥本哈根举办,该会议作为推荐系统的顶会在该领域有很大的影响力,其理论实践并重的理念也吸引了大量学术界和工业界的学者参加。我非常荣幸能本次会议。接下来,我将从如下几个方面介绍下个人的参会体验:

一、会议总览

Recsys自2007年首次召开以来,已经历十多年的发展,已成为推荐系统领域的顶会,今年是第13届,会议在丹麦哥本哈根召开,本次会议共接收文章165篇short paper和189篇long paper,分别接收了40篇和36篇,录用率分别为24%和19%。另外在主会后安排了6个tutorials和12个workshops。这些年来,随着推荐领域的发展和会议影响力的扩大,参与人数逐年递增,本次会议的参会人员达到历史新高870,其中top3的参会国家是USA(22%),China(9.3%),Germany(7.1%).此外,会议一如既往地表现了对工业界的重视,有超过70%的参会人员来自industry。本次会议共计有20家来自工业界的sponsor,如booking.com,spotify,netfleix,huawei,pandora,amazone,google等。

下图是会议的数据详情:

图1.历届会议参会人员情况

图2.会议主要统计数据

二、会议论文关键点说明

从本人的参会感受看,本次RecSys会议主要讨论的知识点包括:数据安全与隐私,深度学习,online learning及交互式推荐, 推荐系统的评估等,并在panel上讨论了推荐系统的社会责任方面的问题。以下是会议的关键词图,从图中也可以窥得一二。接下来就从几个主要的知识点结合来说明:

1. 数据安全及隐私保护

数据安全及隐私保护是所有大数据应用都要考虑和面对的问题。推荐系统利用了大量的来自用户和内容的数据,如何能确保数据安全和用户隐私的前提下,为用户提供优质的体验?这是每个推荐系统的研究者需要思考的问题。本会议安排了两场keynote,其中来自Mireille Hildebrandt的Rude Awakenings from 《Behaviourist Dreams, Methodological Integrity and the GDPR》就是该主题内容,GDPR是General Data Protection Regulation的简称,其含义是《通用数据保护条例》,其前身是1995年欧盟指定的《计算机数据保护法》,由欧盟在2018年5月25日颁布。该speaker主要介绍了GDPR如何规范推荐系统的组织对用户数据的使用方式和方法,保护用户不被推荐系统针对。另外还有至少三篇paper是针对该问题的研究。

《PDMFRec: A Decentralised Matrix Factorisation with Tunable User-centric Privacy》:本文提出了一种去中心化的MF的方法,将推荐模型的计算放在用户设备上完成,用户可自行选择共享的内容,降低了个人信息上传造成的隐私风险。

《Efficient Privacy-Preserving Recommendations based on Social Graphs》:本文提出一种基于隐私保护的关联规则挖掘算法(PPARM),主要思路是通过anonymous random walk方式采样,用户可自行决定是否被参与,且无社交关系的用户信息不共享的方式,解决传统算法在处理社交网络数据时遇到的计算量大和通信成本高的问题。通过这种方法在同样的PR下可以将采样率降低50%,减少50%的通信成本。

《PrivateJobMatch: A Privacy-Oriented Deferred Multi-Match Recommender System for Stable Employment》:这篇文章的背景是互惠推荐平台(如就业匹配推荐)的隐私问题。文章借鉴了game-theoretic中的Gale-Shapley deferred acceptance algorithm,提出一种面向隐私的延迟多匹配推荐系统,只需要用户提供部分偏好排序信息,即可生成稳定的pair。

本次会议还在panel环节讨论了推荐系统所承担的社会责任,题目为《Responsible Recommendation》,邀请了来自学术界和工业界的多位大佬,讨论了fairness, accountability,transparency,privacy 和 social impact等主题。

2.深度学习

将深度学习的技术应用于推荐系统从2017年第11届recsys开始就作为一个重要的session,出现了很多的paper。本次会议专门有两个session是deep learning的内容,是最受关注、论文收录最多的研究主题,有仅20篇paper。Deep learning的技术(如CNN,RNN,embedding等)广泛应用在包括ranking,用户及item表示中。

本次会议的best paper 是来自Maurizio Ferrari Dacrema《Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches》,该文章的论点是1)很多算法不能复现它们声称的结果,代码不公开或不完整。2)文章往往选择了比较弱的baseline或对baseline没有好好的调参。另外文章对深度学习在推荐学习中的应用也提出了一些想法。该文章的观点在外部也引起了大量讨论,个人认为深度学习算法在学习能力上比简单的传统方法具有优势的,其优势在于从海量的数据中学习复杂的隐射关系,所以有好的效果前提是数据量要足够大,特征比较丰富,这一点在很多推荐研究的场景是不一定具备的,尤其是学术研究中,如电影数据集,数量和评论都不够多。所以如何做好的模型,关键是要深入理解不同算法使用的条件和场景,才能在争论中有自己独立的见解,做正确的事情。

此外在会议tutorial环节,由Omprakash Sonie带来了主题为Deep learning for Multi-task Recommendation的tutorial。深度学习目前在计算机视觉,NLP,语音等领域都取得了显著的效果,在推荐系统领域也有很多技术可以使用,如embedding,CNN,RNN(LSTM和bi-LSTM),attention,VAE,GAN和Bert等。该tutorial介绍了MTL(multi-task learning)的相关技术,以及其在推荐系统中的应用,在推荐效果优化和提高解释性方面的内容值得学习。

3.online learning及交互式推荐

在本次会议中,online learning及交互式推荐也是很主要的主题,有4篇long paper和4篇short paper属于该主题。如《Online Learning to Rank for Sequential Music recommendation》、《Explaining and Exploring Job Recommendations: a User-driven Approach for Interacting with Knowledge-based Job Recommender Systems》、《FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction》等。如《Online Ranking Combination》一文,针对多个排序序列在线合并问题,提出了一种基于梯度的有限差分随机梯度算法RFDSA+,可直接优化ranking function,并可以处理多个排序序列的组合,取得了start of the art的效果,对多场景的序列融合具有一定的借鉴意义。

4.其他

此外会议还一如既往的关注推荐算法的评估方式,推荐算法的强化学习等,也出现不少新颖的文章。其中关于强化学习,有一个workshop和两篇paper,其中workshop主题为《workshop on reinforcement and robust estimators for recommendation》,主要讨论了基于reinforcement learning的交互式推荐设计及评估的问题,可惜没有报名参加。在paper方面相对较少,只有一篇short paper:《PyRecGym: A Reinforcement Learning Gym for Recommender Systems》和一篇poster《Large-scale Interactive Recommendation with Tree-structured Policy Gradient》,前者主要侧重应用(GYM),后者侧重算法创新,提出一种基于树模型的策略梯度计算的算法,用于解决传统强化学习在应用于推荐系统是item规模较大导致action空间过大的问题,其主要思想具有较好的借鉴意义。

三.感兴趣的论文

本次会议中有很多有价值的paper,个人感兴趣的主题是强化学习,在线学习、推荐系统中的权益推荐问题,感兴趣的paper列表如下,后续将对重点paper详细解读:

《Tripartite Heterogeneous Graph propagation for large-scale social recommendation》

《Large-scale Interactive Recommendation with Tree-structured Policy Gradient》(only poster)from hw

《LORE: A Large-Scale Offer Recommendation Engine with Eligibility and Capacity Constraints》

《Recommending what video to watch next: A multitask ranking system 》from google

《A Pareto-Efficient Algorithm for Multiple Objective Optimization in E-Commerce Recommendation》from alibaba

四、关注的workshops

本次会议共安排了12场workshop,因时间安排和报名热度,未能全部参于,个人比较关注的workshops有: 1)RMSE;2)REVEAL;3)HealthRecSys;从问题价值,技术价值,个人喜好,公司发展方面来选择。

RMSE:workshop on recommendation in Multi-Stakeholder Environments.

该workshop有4个部分共11篇paper,内容包括fairness,calibration and Bias Disparity和Multi-stakeholder Recommendation. 关注理由该workshop关注的问题是目前推荐系统的热点,也是在推荐系统实际应用研究中需要面对的问题,对工业级尤其有重要的意义。如在电商推荐中,涉及到business owner,consumer,producer,deliver等不同角色,如何在兼顾多方利益,给出满足用户偏好和数据安全的推荐列表。在该workshop的Multi-stakeholder Recommendation部分介绍了相关的研究和demo,值得借鉴。内容详见:ceur-ws.org/Vol-2440/

REVEAL:Workshop on Reinforcement and Robust Estimators for Recommendation.

该workshop包含了6篇long papers和5篇short papers。关注理由是:1)个人比较关注强化学习领域的研究,尤其是其在推荐系统中的应用非常有趣;2)交互式推荐系统已成为研究的热点。而强化学习天然适合交互式推荐的场景,二者结合将会产生很多好的idea。

HealthRecSys:Workshop on Health Recommender Systems. 该workshop包括keynote和6篇paper。主要是讨论推荐系统在健康领域的应用,包括如何通过推荐系统提高人们对自身和公共健康知识的理解,如何处理医患之间的交互及隐私安全、推荐技术在食品推荐及保健等多方面具体的应用等。个人认为比较值得关注的原因主要有:1)首先健康生活和饮食问题是近些年来关注的热点,技术有较大的发挥空间和想象力;2)推荐系统在该领域的应用讨论对我来说比较新颖,有吸引力,参会人员包括健康,心理学,医学,健身等多方面的专家。在一起讨论非常有价值。内容详见:ceur-ws.org/Vol-2439/

五、对未来技术趋势的判断

交互式的推荐:推荐形式会越来越丰富,文本,图像,语义等在内容上变得更加丰富,在交互上也会更加多样,在搜索时代,需要手工输入query,获得内容,其实也是一种交互,推荐时代,用户使用更加方便,不需要有主动反馈想要的内容,随着交互技术的发展,交互成本逐步降级,交互式推荐可能会有较大的发展,这里的交互,不仅限于对话语言,也可能是其他方式,如视觉,动作,思想等。

online learning:本次会议对online learning研究的paper和讨论较多,可以说明该技术已备受关注。随着交互技术的发展和交互式推荐系统的日益成熟,交互形式也会越来越多样化。用户对系统反馈的实时性要求会更高,如何实时的学习更新model是推荐系统必然要考虑解决的问题,因此,个人认为online learning将持续保持热度,受到更多的关注。

强化学习:强化学习一直是近些年来的热点,但在推荐系统中的应用还不够成熟,尤其在工业应用中的落地还非常少。当前这个现状有多方面的原因,如推荐系统决策空间太大,item更新频繁,环境复杂等。目前关于强化学习本身的研究很多,当前再推荐系统中的技术难点也不断的攻克,所以有理由相信强化学习会成为推荐系统中的关键技术。

六、附录

Gale-Shapley deferred acceptance algorithm:该算法也叫做“延迟接受算法“(deferred-acceptance algorithm),目的是设计一个稳定匹配的市场机制,其基本思想是市场一方的对象(机构)向另一方的对象(用户)发出邀约,另一方对收到的邀约进行考虑,然后hold自己青睐的,拒绝其他的,其关键在于,中意的邀约不会立即被接受,而只是hold,也就是deferred-acceptance,只有等到邀约被拒绝,机构才可以向其他用户发出新的邀约,整个过程一直到没有机构再希望发出新的邀约为止。

编辑于 2019-10-22

文章被以下专栏收录