论文读后笔记+小结
CAMI 可以灵活地提取分散在输入序列中的关键特征,并形成重要特征之间的高级交互,有助于有效识别错误信息并实现实用的早期检测。 在两个大规模数据集上的实验结果验证了 CAMI 模型在错误信息识别和早期检测任务上的有效性。
基于特征工程的方法无法在重要特征之间形成精细的高级交互来模拟现实世界的社交媒体场景,而 CNN 不仅可以自动提取局部-全局来自输入实例的重要特征,而且揭示了那些高级交互。
这项工作的主要贡献如下:
该部分主要介绍早期有关谣言检测的相关工作和CNN。
CNN 由堆叠的卷积层和池化层组成,其架构有助于对重要的语义特征进行建模,并在各自领域取得很大改进。 例如,CNN 已成功应用于语音识别 [Abdel-Hamid et al., 2012]、句子语义分析 [Kalchbrenner et al., 2014]、点击率预测 [Liu et al., 2015]、图像语义 分割 [Zhao et al., 2017] 和强化学习任务 [Tamar et al., 2016],CNN 通常通过随机梯度下降 (SGD) 进行训练,并通过反向传播来计算梯度。
该部分介绍所使用的数据集
我们在两个大型微博数据集上评估模型:微博和 Twitter 数据集,Twitter 数据集中分别属于错误信息和真实信息的事件数分别为 498 和 494,微博数据集中分别为 2,313 和 2,35 1。
该部分主要介绍CMAI模型
给定一组事件,每个事件包括一系列相关的微博帖子,每个微博帖子都与一个时间戳相关联。 这里的任务是在事件级别识别事件是否是错误信息,即通过分析事件的相关微博序列来检测事件是否是错误信息。
如下图所示的 CAMI 模型的框架。 自下而上,大致有以下三个迷你模块。
因为错误信息也可能以说真话的形式描述,所以我们很难从特定帖子中识别错误信息。相对来说,我们从时间的相关微博帖子序列中检测错误信息更合理。又由于错误信息和真实信息的固有属性在错误信息识别中起着关键作用,所以我们将某个事件的所有微博帖子作为一个整体来处理,然后对事件的这些属性建模。
将一个事件的所有相关微博帖子分成几个组
。 我们打算将一个事件的所有相关微博帖子分组到一系列时间窗口中,并通过对微博帖子组建模来提取整体特征。
为什么分组?
一个事件一般平均由数千条相关微博组成,事件数量差异巨大。 此外,某些特定时间窗口内的微博帖子是如此相关,以至于我们可以将这些相邻的微博帖子视为一个代表特定事件阶段的组。如何分组?
有两点需要考虑。 首先,所有事件都需要以统一的方式进行拆分,以便提取的区别特征有意义。 例如,真实信息往往在开始时被发布或转发并很快消失,而错误信息通常在中间阶段引起相对持续的关注。 所以同一时间窗口内不同信息的微博数量可能不同。 我们应该比较同一时间窗口内的微博帖子数量,获得的多样性是有意义的。 其次,我们确保尽可能保持事件的一个阶段不间断,即那些最相关的微博帖子在一个代表事件阶段的组内。通过段落向量学习每个组的表示
。 我们将一个时间窗口的微博帖子视为一个事件阶段,并用一系列阶段对事件的整体特征进行建模。
一个时间窗口内一组微博帖子的一个事件阶段可以看成一个段落来学习段落表示gj
预测是通过softmax进行的,
给定 N 个单词的段落,单词由 W 中的列向量 w n 表示,段落由 D 中的列向量 gj 表示。此外,Θ 是 softmax 参数,h 是连接或平均操作。 利用上下文词和段落记忆来预测当前词。
此外,那些没有任何微博帖子的组用零向量表示。 值得指出的是,该模型的输入固定大小为 20,CAMI 输入层的段落向量在后续训练过程中不会更新。
通过 CNN 对高级交互进行建模
。 CNN 的常用架构包括卷积层、kmax 池化层和全连接层。
对于具有 n 个阶段的输入事件实例 ei,每个阶段嵌入为 gi∈R^d, 我们可以得到实例矩阵 G∈R^dxw,在卷积网络中,卷积层是由权重矩阵 C∈R^dxw 对下一层的激活矩阵进行逐行卷积运算得到的。随后将非线性函数应用于卷积结果,可以得到特征图的一个元素:
其中 G[:, i : i + w - 1] 是 G 的第 i 到 (i + w - l) 列,下标 F 是 Frobenius 内积,即对应元素的乘积之和 两个矩阵。 最后,我们对特征图 f 进行 k-max pooling 以捕获最重要的特征。
此外,可以重复上述卷积和池化操作以产生更深的层。 最后,有一个全连接层和最终输出 pei 是通过softmax获得的。 pei 是预测事件 ei 是否属于错误信息的概率。
该部分介绍如何进行实验以及对比的模型和实验结果
为了经验性地评估我们的方法在错误信息识别方面的性能,我们在两个大型微博数据集上进行了实验。 几种方法用于与我们的比较:
(1) GRU-2 在输入层之后配备了两个 GRU 隐藏层和一个嵌入层。 增强的 GRU 隐藏层有助于获得特征的高级交互 [Ma et al., 2016]。
(2) SVM-TS 是一种线性 SVM 分类器,它使用时间序列结构来对社会上下文特征的变化进行建模,并根据内容、用户和传播模式提取这些手工制作的特征 [Ma et al., 2015]。
(3) DT-Rank 是一种基于决策树的排序模型,通过基于统计特征对聚集的有争议的事实主张进行排序来识别趋势谣言 [Zhao et al., 2015]。 DTC 是一种决策树分类器,用于建模信息可信度 [Castillo et al., 2011]。
(4) S VM-RBF 是一个基于 SVM 的模型,带有 RBF 内核 [Yang et al., 2012]
(5) RFC 是一个随机森林分类器,具有三个参数来拟合时间推文音量曲线 [Kwon et al. , 2013]
在所有实验中,我们随机选择 10% 的数据集进行模型调整,其余 90% 以 3:1 的比例随机分配用于训练和测试。
一共可以对比得出以下两个结论:
改论文主要的贡献就是提出的CAMI模型可以有效的对高级交互建模,并通过与RNN等对比体现了用于错误信息的早期检测的明显优势,而CAMI的实现主要依赖于CNN,该框架的输入是一组微博帖子的的段落向量。段落向量是用一个时间窗口的所有事件特征进行建模。