题目:Exploring the Emerging Type of Comment for Online Videos: DanMu
作者:MING HE等,中科大
发表:2018 ACM Transactions on the Web
作者从acfun抓取数据,总计6506个视频,1704930个弹幕,32万作者和155455个传统评论。数据集中详细信息包括:(1)每个视频的上传时间,从2014年1月1日到2015年1月1日;(2)每个弹幕的自然时间、视频时间、作者ID、文本内容;(3)每篇传统评论的自然时间和作者ID
总量分布 | 弹幕总量远大于比传统评论 弹幕作者更活跃 弹幕功能比传统评论更能吸引用户发表意见 |
时序分布 | 自然时间:传统评论头几日较多,后期变少;弹幕后期也会有急剧增多现象 视频时间:弹幕分布包含多爆发现象。 |
【观察→建模→验证→结论】
验证方法:采用Christie和Huang(1995)的羊群效应模型来量化弹幕的羊群效应,因为可以很自然地将视频集类比为股票市场,将每个视频类比为股票,将#弹幕类比为股票收益。
结果表明:羊群效应对视频时间的影响与自然时间的影响呈正相关.
验证方法:采用Vlachos等人(2004)提出的突发检测方法来检测弹幕的爆发。这种方法(称为VTBM)是基于移动平均(MA)的计算
为了探索弹幕爆发的前因和羊群效应,作者提出了在弹幕爆发中寻找起主导作用的、对弹幕爆发的发生贡献最大的先导弹幕。先导弹幕下图为示例:先导弹幕能够激发后续弹幕。
在介绍了弹幕内容(内容相似度、内容新颖度、弹幕位置)、用户信息、弹幕时间信息三种因素后,提出一个综合考虑这三种因素的先导弹幕检测框架,并给出了实验结果
基于识别出的弹幕特征,提出预测未来弹幕在视频和视频片段上的分布,可为理解视频流行度和网络流量的趋势提供重要的指示。对视频分布的预测是预测未来弹幕会发布哪些视频。对视频片段分布的预测是预测未来弹幕将在视频的哪些片段上发布。作者开发了两个复杂的模型来解决这两个问题,这两个模型都考虑到了弹幕的独特特性【略】