今天一个微信好友对我说,不要再在他的微信朋友圈评论了,他说腾讯开始删他的朋友圈了,我说不以后不随便评论了。但是我就疑惑了,就算他发的内容是敏感的,那么微信后端怎么这么快就发现了呢,以前还从未听说过有人朋友圈内容被微信删除的。正当我疑惑的时候,他问我我能否还看得到他昨天发的朋友圈内容呢,我立马就看了下,发现是可以看到的,并且他的朋友圈根本就没有被所谓的删除,我还立刻截图给他看了,我说你如果还是看不到,可以重启微信APP或者重启手机,然后他按照我说的做了,一切又恢复正常。这个小事情,也让我想到了一个问题-在技术层面如何快速有效地检测到用户发布的违规敏感内容以及违规敏感的留言呢?针对次问题,我下面做出一些分析并且给出自己觉得可能的解决方案。
随着互联网的全民普及以及互联网在全球范围内的互通,网络已经成为了人们生活的重要部分,人们可以在互联网上共享信息与资源,网络也成为信息快速传播的媒介与载体。但是互联网信息鱼龙混杂,琳琅满目,网络上一些不良信息给网络环境造成了污染并且会给个人、社会、国家带来危害,因此快速有效检测网络不良(垃圾)信息对网络环境的净化和文明和谐社会的构建将具有十分重要的意义。
网络信息主要以文字、图片、视频、音频、动画等媒体元素构成,文字语言是信息表达最常见的形式,而图片、视频这些多媒体信息是现在互联网信息主要的表达方式。现在互联网海量信息并且正以几何指数爆炸式增长,传统的人工分析和甄别信息已经远远不能实际的需要,智能自动进行海量信息分析与处理已经成为当下以及未来的必然趋势。幸运的是,随着硬件技术的飞速发展,各种高性能计算设备不断涌现,和大规模数据处理技术的成熟,以及人工智能技术在诸多领域取得了突破性的进展和落地,这为当下互联网海量信息的处理提供了硬件、软件以及算法上的强有力支撑。本文介绍敏感信息的检测与识别算法,提出一些可能可行的解决方案。
一、敏感、违规文字段落、文章识别
文字是信息最常见的载体,也是用户在网络上发言与交流使用最多的表达方式。针对文字性的内容进行分析处理,可以采取以下策略:
1)提取敏感违规关键词
这需要首先对文字语言进行分词处理,然后提取敏感关键词
2)文本分类技术
将全篇文字段落首先分割为若干个片段,然后利用预定义的违规敏感内容识别模型对片段的内容进行识别。违规敏感内容识别模式,本质是一个文本(情感、语义)分类模型,可以借鉴现在顶尖的文本分类模型,线下预先训练好。
二、违规敏感图片识别
违规敏感图片识别,可以将整张图片当作一个整体进行分析;也可以检测图片中是否出现标志性的敏感事物,通过局部的分析处理从而对整张图片进行识别。
1)图片分类技术识别规模敏感图片
图片分类模型和技术已经非常成熟,我们可以在互联上搜集大规模的数据集,这些数据集包括正常内容图片以及违规敏感内容图片,可以使用深度学习图片分类模型来对其进行分类,从而识别出违规敏感图片。
2)目标检测
可以使用深度学习目标检测模型对图片中的违规敏感物品、内容进行检测,从而达到识别的目的。我们需要事先定义违规敏感内容,对使用目标检测模型对其进行训练。
三、音频识别
可以利用深度学习技术对音频进行分类,从而识别出违规敏感音频。首先需要对音频了类别进行定义,这些类别主要包括正常与违规敏感音频两大类,当然,每一大类别中还可以进行细分出子类别。
四、动画、视频识别
动画和视频往往包括音频和图像帧序列,因此可以可以从两个方面来对违规敏感动画和视频进行识别。
1)音频识别,可以参照以上“三”章节部分。
2)视频识别,可以通过单帧图像进行识别,可以对多张连续的图像帧构成的片段进行识别。
基于单帧图像的识别,可以参考以上“二”章节部分。
基于视频片段的识别,可以借鉴视频分类领域的常见的模型。
在某些方面异常数据集比较少、收集成本高等原因导致异常数据非常稀少,此时我们可以换个角度思考问题---对正常数据进行建模挖掘其内在的规律与模式,那么异常的数据往往偏离由正常数据建立的模型,进而也可以对异常数据进行检测。