SPTF: A Scalable Probabilistic Tensor Factorization Model for Semantic-Aware Behavior Pred. 论文解读

SPTF: A Scalable Probabilistic Tensor Factorization Model for Semantic-Aware Behavior Pred. 论文解读

「介绍」

今天为大家介绍 ICDM (International Conference of Data Mining) 2017 的一篇关于通过概率张量分解模型建模网购用户行为交互信息用于预测在线用户多种行为预测的一个工作。此工作由澳大利亚昆士兰大学数据知识工程 (DKE) 组 阴红志 老师所在的推荐系统研究小组展开。360搜索实验室也参与了此工作。

「摘要」

在线电商网站的普及使用,产生了大量的用户商品交互数据,比如用户的在线的浏览信息,收藏信息,加入购物车行为,以及最终的购买行为。 这些丰富的数据记录了用户和商品之间多种不同的交互过程。这些行为往往是非负即正的,精确体现了用户的某种特定的行为和反应(可以称之为间接反馈数据)。张量分解模型被认为是一种可以对多种用户交互数据有效建模的方式。然而,在建模过程中,在对未观测到数据的建模解释过程中往往会产生很多歧义,比如真正的负样本和潜在的正样本很容易被混淆在一起。现有的张量分解模型要么忽视了样本中未观测到数据,要么统一把未观测到数据作为负样本考虑。这样的做法使得所构建模型要么精准度低下,要么需要大量的计算资源。再者,对于不同种类的用户交互数据,正例样本的分布往往是非常的不平衡的。现有的张量分解模型在建模此种数据的时候往往会产生较大的偏差。

在此项工作中,作者提出了一种可以扩展的基于概率的张量分解模型(SPTF)对异构的用户行为数据进行建模,同时作者提出了一种全新的负例采样方法来优化该模型。该方法同时建模了观测到的样本以及样本中未观测到数据,以相对较低的计算代价和较高的精准度完成了对用户行为的预测。为了克服不同种类用户交互信息的不平衡分布,作者也提出了一种全新的适应性基于排序的正例采样策略来加速模型收敛。此工作提出的模型优化方法使得其可以大规模应用于大规模电商网站数据上。此工作中的实验结果也展示了其在用户行为预测精确度和可扩展性上的优越性能。


「主要贡献」

  1. 本文提出了语义感知的用户行为预测的研究问题,目的是为了预测用户某种特定行为下最有可能的top-n个产品。
  2. 提出了一种可大规模扩展的基于概率的张量分解模型,用于建模可以感知语义多样性的用户行为数据。提出了双向流行度偏差化负例采样方法来优化该模型。
  3. 提出了一种适应性基于排序的正例采样策略用于生成训练数据。


「模型描述」

每种用户,商品,行为类别被表示为一个D维的隐向量,y_ijk 表示一组用户行为信息


公式2理解为,所有的用户行为数据 y_{ijk} 是基于独立条件概率于给定的用户,商品,行为的隐向量。模型通过一个评分方程 f(x_{ijk};\Theta) 来建模一组用户数据 x_{ijk} 的存在性,评分方程表示了模型的confidence。 \sigma(x) = 1 / (1+e^{-x}) 为sigmoid逻辑函数。 Ber(y | p) 为伯努利分布,表示为:

多种张量分解模型Tucker Decomposition (TF), Canonical Decomposition (CD), Pairwise Interaction Factorization (PIF)可以用来实现提出的SPTF模型。此工作采用了PIF:

根据概率矩阵分解的成功经验,我们在被优化参数上采用高斯先验分布,最后模型的概率生成过程如下:

基于如上概率分布,通过简单的贝叶斯推断,用户,商品,行为的隐向量的后验概率被定义为如下:

U, V, T 是由 u, v, t为列向量所构成的矩阵。优化目标是最大化公式5种的似然函数,其等价于公式6种最小化负对数似然函数。


「模型优化」

直接优化公式6代价非常昂贵,因为数据中未观测到数据为3方于用户和商品数量。同时,并不是所有的负样本都是真正的负样本。因此,从负采样得到了灵感,相对于利用所有的未观测样本,作者选择一些最有可能的负样本来优化模型。

双向负例采样:

采样概率非常重要,现有的负采样方法都只替换triple的一边来构建负例,称之为统一方向采样。具体的说,比如给定一组用户交互行为 u v t, 大多数目前的方法通过固定u,t, 同时根据一个噪声比例替换v来构建负例。

如果我们只从用户的角度去构建负例,如同BPR方法里的那样,那么模型就不能准确的学习到商品v的隐向量,这是因为在这种情况下,只有正用户(用户u对商品v有过行为t)被考虑到,因此学习到的商品v的隐向量则不能分别其正用户和负用户。因此,从单一的一边构建负例是不够的。

本文采用的双向负例采样方法,首先固定u,t采样v, 然后固定v,t采样u。 然后,该如何去决定采样概率是一个非常种要的问题。一种简单的方式是通过uniform random sampling, 然而这种方法表现不好。注:具体文献请读者参考原文。

为此,本文采用了如下双向采用方法:

  • Popularity-biased Item Sampling (PIS)
  • Popularity-biased User Sampling (UIS)

适应性正样本采样策略:

由于用户的行为数据是多种多样的,并且对于每种行为,其分布也是广泛不均匀的。大多数优化算法在优化的过程中,默认所有的行为数据的分布是均匀的,这就会产生问题。 比如占比重大的用户行为类型的数据将会被采样的非常多,相对比来说,一部分占比较少的用户行为记录将会被采样的非常少。这样造成的后果就是,占比多的交互行为类别将会被预测的准确,而那些分布比较少的行为类型预测精度就会不足。

因此,本文提出为每个正例计算出一个权重:

然后采样概率计算如下:



「实验」

本文实验在天猫交易数据上展开(天池2014数据),该数据包含48万余件商品,1万用户,以及产生的2千万条行为数据。其中每条行为数据表示为:

<用户id, 商品id, 行为类别id>

行为类别包括4种,每种所包含数据条目数量不等,基本统计信息如下:

任务1: 预测准确性(hits ratio @ 20, 15, 10, 5, 1)

MRR:

任务2: 模型效率和可扩展性 (详见论文)

任务3: 用户行为相似性分析 (详见论文)


【实验数据和代码】:pan.baidu.com/share/ini 密码: jrlb.

【论文地址】net.pku.edu.cn/daim/hon






发布于 2018-05-12

文章被以下专栏收录