在现代推荐系统领域,如何根据用户的短期行为来预测其未来的点击行为是一个重要问题。传统的推荐系统多依赖于用户的长期偏好数据,而在实际应用中,用户的会话(session)行为也往往能很好地反映用户的即时需求。为了解决这一问题,基于会话的推荐系统(Session-based Recommendation, SBR)逐渐兴起。本文介绍的SR-GNN(Session-based Recurrent Graph Neural Network) 是一种将图神经网络(GNN)引入到会话推荐中的方法,能够有效捕捉用户在单个会话中的短期行为,从而预测用户的下一个点击行为。SR-GNN 在会话推荐系统中引入了图神经网络,能够有效捕捉物品之间的复杂依赖关系,并结合自注意力机制和门控循环单元(GRU)建模时间顺序。这使得 SR-GNN 能够在短期会话中进行准确的推荐,尤其适用于动态变化的用户行为场景。
背景介绍
在会话推荐系统中,用户的点击序列是短期行为的体现,并且我们只使用当前会话中的点击数据来预测用户下一个可能点击的物品。在这种背景下,我们无法依赖于用户的长期历史偏好,而是基于当前会话内的物品之间的关系来进行推荐。
会话推荐问题可以表述为:给定一个物品集合
具体细节
会话图的构建
为了更好地捕捉会话内物品之间的复杂关系,SR-GNN
将会话数据转换为图结构。对于每一个会话序列
例如,用户在会话中依次点击了物品
物品嵌入的学习
在构建好会话图之后,SR-GNN
使用图神经网络(GNN)来学习物品嵌入。GNN的优势在于能够在图结构上进行信息的传播和聚合,从而捕捉到图中节点(物品)之间的复杂关系。具体来说,每个节点的嵌入
:会话图的邻接矩阵。它确定了节点之间的连接方式。对于一个节点 来说,这个矩阵决定了它可以从哪些其他节点获取信息。 :表示会话图中所有节点的前一时间步的嵌入向量。 :一个权重矩阵,控制着如何结合这些信息。 :偏置项,用于调整输出。
经过多轮迭代后,节点的最终嵌入
生成会话表示
在每个会话图中的物品节点嵌入学习完成后,SR-GNN 生成整个会话的表示。这是通过结合局部嵌入和全局嵌入完成的:
局部嵌入:直接使用最后一个点击物品的嵌入
来表示当前用户的短期兴趣。 全局嵌入:通过自注意力机制将会话中的所有物品嵌入聚合起来,捕捉用户的长时兴趣。
是一个全局向量,它的作用是提供一个权重机制,用来衡量不同物品(节点)的重要性。这个全局向量是通过训练学习到的,它帮助模型对当前会话中的每个物品节点进行一个权重分配。 的值越大,表明这个物品在整个会话中越重要。 表示会话中的最后一个物品的嵌入。为什么用最后一个物品呢?因为在很多推荐场景中,用户的最后一个点击行为往往反映了用户最当前的兴趣。最后一个物品的嵌入 是一个很重要的信号,它能代表用户对某类物品的偏好。 则表示会话中的第 个物品的嵌入。这个物品是当前会话中可能存在的某个物品。 和 是两个权重矩阵,用来将最后一个物品和当前物品的嵌入向量映射到一个新的空间中。通过这两个权重矩阵,模型能够比较当前物品 与会话中最后一个物品 之间的相似性。这样可以让模型捕捉到用户在会话中是如何从一个物品逐步过渡到最后一个物品的兴趣变化。 - 如果某个物品
和最后一个物品 的相关性很高,那么它的权重 会更大,表示这个物品对当前会话的整体偏好影响更大。
最终嵌入:通过将局部嵌入
和全局嵌入 进行线性组合,生成最终的会话表示。
预测与模型训练
在会话嵌入生成之后,SR-GNN 通过计算每个候选物品的得分
模型使用交叉熵损失函数进行训练:
其中,
在 SR-GNN 模型中,公式
然后,模型将计算得到的分数通过 Softmax 函数转化为概率分布
其中,
损失函数的定义
为了训练模型,使用交叉熵损失函数来衡量模型的预测结果与实际点击物品之间的差异。损失函数的形式如下:
其中,
模型训练
训练过程中,采用反向传播算法(Back-Propagation Through Time, BPTT)来更新模型参数。在会话推荐任务中,大部分会话的长度相对较短,因此建议选择较小的训练步数,以防止过拟合。
这个过程通过不断地调整模型参数,使模型逐步学会捕捉用户的行为模式,从而在新的会话中为用户推荐最有可能点击的物品。
代码示例
模型的实现源代码在 https://github.com/CRIPAC-DIG/SR-GNN/tree/master,下面我将提供一个简化版本的代码进行讲解。
类定义与初始化
1 | class SimplifiedSRGNN: |
- 物品嵌入矩阵:模型使用
embedding
变量表示物品的嵌入向量。每个物品都对应一个向量,大小为hidden_size
,这些向量是通过训练来更新的。 - 邻接矩阵:
adj_in
和adj_out
是占位符,用于存储会话图的入度和出度邻接矩阵。这些矩阵用于信息传播,帮助模型了解物品之间的点击顺序。 - 权重矩阵:
W_in
和W_out
是两个权重矩阵,分别用于对入度和出度邻接矩阵中的物品嵌入进行变换。每个矩阵的大小与hidden_size
相同,用于调整信息传播的权重。
图神经网络中的信息传播
1 | def gnn_propagation(self): |
- 物品嵌入:通过
tf.nn.embedding_lookup
,我们从嵌入矩阵中获取当前批次中物品的嵌入向量,形状为(batch_size, T, hidden_size)
,其中T
是会话中的物品序列长度。 - 信息传播:我们通过
adj_in
和adj_out
进行入度和出度邻接矩阵的乘法操作,来更新每个节点的嵌入。这里的操作模拟了会话中的物品点击顺序对信息传播的影响。 - GRU 单元:
GRU
是一种循环神经网络单元,用来捕捉序列中的时间依赖性。我们将聚合后的物品嵌入传入 GRU 中,最终得到final_state
,它表示了当前批次中物品序列的状态。
训练过程
1 | def train(self): |
- 得分计算:我们通过 GNN 得到的物品序列的状态
final_state
和物品嵌入矩阵做内积运算,得到每个物品的推荐得分logits
。 - 交叉熵损失函数:我们使用
tf.nn.sparse_softmax_cross_entropy_with_logits
来计算目标物品的损失,这个损失衡量了模型对下一个物品预测的准确性。 - 优化器:使用
Adam
优化器对模型进行优化,目的是通过最小化损失函数,逐步更新模型参数,提高预测准确性。
训练循环
1 | def train_model(n_items, epochs=10): |
- 生成模拟数据:我们为每个训练批次生成随机的邻接矩阵(
adj_in_batch
和adj_out_batch
)和物品序列(item_batch
)。 - 执行训练:在每个训练批次中,我们运行模型的优化器来最小化损失函数,并输出当前批次的损失值。
- 会话管理:在 TensorFlow 中,通过
tf.Session()
来执行计算图,并使用sess.run()
来实际执行模型的计算和优化操作。
- Post title:Integrating Large Language Models with Graphical Session-Based Recommendation
- Post author:Chen Kai
- Create time:2024-08-13 09:00:00
- Post link:https://www.chenk.top/Session-based Recommendation with Graph Neural Networks/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.