新闻资讯

KDD 2019 | 平衡内容和用户兴趣,香港科技大学联合微众银行提出社交探索注意力网络推荐模型

2019年8月31日

引言

 

在内容分发平台上,有效的内容推荐算法既应当考虑到使内容创作者真正获益,也要帮助内容消费者获得其切实感兴趣的内容。更准确的推荐能够改善消费者的阅读体验。

 

然而,现有的推荐算法在内容创作者和消费者之间缺乏平衡。内容推荐算法主要有内容推荐或协同过滤(CF)两种。基于内容的推荐方法通过学习用户的历史阅读/观看的内容,根据内容的特征或相似性来预测用户可能感兴趣的内容。由于内容推荐算法的重点考虑内容主题的相关性,因此可能无法推荐多样化的内容。

 

协同过滤算法则根据同一组用户点击/读取的内容,在行为相似的一组用户内进行内容推荐。由于协同过滤算法会产生马太效应(点击率高的内容更容易获得推荐),这可能会影响到小众内容或点击率较低的创作者。

 

在本论文中,研究者同时考虑到了创作者和消费者的需求。他们用户的感兴趣的内容用上下文向量表示,将代表用户的的这种文档表示向量输入最终的预测分类器。这可以更好的兼容小众内容。

 

同时,为了提高消费者满意度,论文研究者对用户的相关好友感兴趣的内容处理为上下文向量,然后获取这些好友的阅读兴趣和预测知识。考虑到需要遍历很大的社交网络,研究者开发了一种基于蒙特卡罗树搜索(MCTS)的社交探索机制,此机制对于处理高阶朋友关系会更有效。总体而言,论文提出的模型称为社交探索注意力网络(SEAN)。

 

 

模型架构


推荐任务用于预测目标用户是否会点击给定文档。模型的目标是学习预测函数,用于预测用户将要点击给定文档的概率。以下为模型的总体架构:

SEAN的架构。左侧为社交探索模块,为右侧的系统探索用户在社交网络中的高阶朋友。将这些朋友与用户学习到的兴趣知识表示合并,分别建立了单词级和句子级的用户表示向量。右侧是神经网络结构,使用CNN将单词编码到GRU层,随后将句子编码到文档中。

 

 

社会化文档表示


为了获得用户感兴趣内容的表示信息,研究人员利用多层神经网络模型来学习用户阅读内容的文档表示。

 

单词级别个性化


研究者将预训练过的词嵌入作为单词使用。他们将句子中的所有词嵌入连接成句子矩阵,然后再用卷积神经网络学习文档中的句子表示。

 

然后,在获取了隐藏表示后,研究者用相似度和单词级用户的社交表示向量来测量单词对目标用户的重要性。他们计算了CNN句子表示向量的加权和,用于表示在单词级社交表示向量的注意力权重。

 

句子级个性化


在句子级别,研究者使用双向门控循环单元网络(Bi-GRU)将一系列句子向量组成文档向量。运用句子级用户表示向量来提取目标用户感兴趣的相关句子,并通过类似于句子表示的注意力机制获得最终的文档表示。

 

 

社交化用户表示


研究人员通过另一个可训练的嵌入矩阵以相同的方式获得用户的句子级表示。研究人员设计了一个社交注意力模块,通过融入用户好友的兴趣表示来丰富用户的表示。类似地,可以通过高阶朋友的表示向量的注意力来获得句子级的用户表示知识。最后,研究者使用全连接神经网络来预测目标用户读取候选文档的概率。

 

 

社交好友探索


考虑到需要加入用户好友的兴趣知识,更好地增强推荐内容质量,研究者提出了一种蒙特卡罗树搜索算法。与集束搜索算法结合,通过遍历社交图来引导生成用户的好友的搜索路径。

图3:社会探索用MCTS图示

 


训练和数据集


数据集


研究人员在社交平台Steemit上构建了两个数据集——Steemit-English和Steemit-Spanish。Steemit是一个博客和社交网络平台,利用Steem区块链来奖励创作者和消费者。Steemit平台与其他平台不同的是,该平台不会操纵内容和用户点击率。我们对2017年6月2日到2018年7月6日的用户评论活动进行了检索,并且分别基于英语和西班牙语的社交社区构建了两个数据集。

研究者构建了很多三元组样本:一个给定的用户,一个文档和一个标签l/0,将用户发表评论的文档制成正样本。将用户朋友做出回复但用户未回复的消息制成负样本。

 

训练


在模型训练的过程中,对于CNN层中的单词级表示,窗口大小范围为1至6,每个窗口对应的卷积通道数都是50。对于GRU层和全连接层,隐藏向量大小设置为128。社交用户搜索的过程中,集束宽设置为3,λ设置为1。搜索深度设置为10。研究过程中,每天对模型进行6轮次训练。每天用于训练和验证的数据比例为9:1。研究者使用过去t天的数据训练模型,再使用第t+1天的数据进行测试。

 

实验结果

 


表2:在Steemit数据集中使用的不同方法的结果对比


图1:使用Steemit社交媒体368天的不同算法之间的基尼系数对比。基尼系数是根据创作者的推荐分发印象数计算出来的。基尼分数越低,说明内容分发的平等性越强。