问题点
:由于每天产生的新数据不断变化,自适应模型对动态数据变得越来越重要,特别是在过去十年数据呈指数级增长的情况下,现在的数字世界大约包含2.7 Zetabytes。图6总结了近年来发展起来的重要的、新颖的动态网络入侵模型。
基于流的模型:由于动态数据可能以流的形式出现,研究人员开始寻找一种专门的流数据模型。为了解决动态流数据中不相关数据的问题,Thakran等采用基于密度和划分的聚类方法以及加权属性来处理流数据中的噪声数据,并将其用于离群点检测。为了提高入侵检测模型的实时响应能力,HewaNadungodage等人使用图形计算单元(GPU)的并行处理能力加速异常检测。Noorbehbahani等人没有提高检测离群点的实时速度,而是研究了一种使用增量学习的更具自适应性的模型,该模型在流数据中标签有限的情况下仍然表现良好。他们实现了一个混合的自组织映射增量神经网络(MSOINN)和“内部和之间”聚类,用于离线和在线学习。离线阶段从网络训练数据和初始分类模型中生成初始聚类集。集群更新在在线学习阶段,使用MSOINN聚类算法对新观测值进行分类。
强化学习:强化学习是机器学习的一种,它在给定奖惩概念的情况下学习系统状态和它可以执行的动作之间的映射或策略。Bensefia和Ghoualmi通过一种自适应方法,提出了一种自适应人工神经网络和学习分类器系统的集成,该系统使用一个反应式学习基来学习新的攻击模式。最近,Sethi等人对云环境进行了研究,并将强化学习应用于云中的变化数据,他们将强化学习应用于通过VPN与代理网络通信的主机网络。将虚拟机生成的日志提供给应用深度Q网络的代理,将模型的结果与管理员网络的实际结果进行比较,计算奖励并迭代,直到奖励最大化。
增量学习:对于动态环境中的数据,预训练模型必须在不影响对之前数据的分类性能的情况下,以增量的方式使用新数据更新。针对僵尸网络入侵攻击,Feilong Chen等人提出从过去客户端访问过的服务器ip地址集合开始检测僵尸网络,因此实现了增量最小二乘支持向量机,以适应特征和数据的演化。ming - hui Chen等人提出了一种基于群体的增量学习方法,通过过去的经验从演化的数据中学习,并应用协同过滤来自动分类,适应数据中的关键特征。随着在线神经网络伴随着参考中的SVM,向可扩展应用的转变。
问题点
:对于大数据来说,处理如此大量的数据是压倒性的,因此设计了优化方法来加快预处理速度,例如约减方法,消除冗余特征并降低数据的大小。图7描述了使用增量学习、并行处理和Apache Spark用于云计算的三种关键方法处理大量数据的范例。
增量学习:为了处理如此大量的数据,可以应用增量学习来增量地处理它。Chen等人实现了一种增量训练方法重复训练一个卷积层,然后在新数据进入时向卷积神经网络(CNN)添加另一层,直到实现目标结构,使最终的CNN优化训练时间。
云计算:随着亚马逊网络服务(AWS)和Apache软件基金会等云计算平台的出现,使用虚拟服务不仅是可用的,而且速度很快。目前的研究兴趣似乎在于利用Apache服务实现机器学习。Manzoor和Morgan使用Apache Storm来加速入侵检测,并采用了基于支持向量机的实时入侵检测系统;Faker和Dogdu用Apache Spark实现了深度前馈神经网络、随机森林和梯度提升树方法;最近,Morfino和Rampone使用Apache Spark的MLlib库来缩短他们性能最好的模型(决策树)的训练时间,这样他们就可以将模型拟合到200多万行数据中并解决SYN-DOS攻击。
问题点
:网络入侵数据仓库的不断增长带来的挑战是当前更多、更多样化的网络攻击类型数据的持续缺乏。数据集上充斥着缺乏均匀表示的攻击类别。一些数据集被特定的攻击所主导,而其他类型的攻击则缺乏代表性。一些数据集由非攻击类(良性类)主导,所有攻击类型都是少数类。为了解决数据量小的问题,特别是缺乏攻击类型的问题,元学习和迁移学习技术已经被探索。实现这两种技术的新颖机器学习模型在图8中突出显示。
Meta-Learning: 元学习使用自动学习来改进模型从数据中学习的方式。通常数据分为学习集和预测集。支持集在学习集中,训练集和测试集在预测集中。在"少样本"学习中,只考虑到微薄的支持集,旨在减少未标记数据的预测误差。Panda等人使用平衡嵌套集成的多个分类器进行学习采用多类问题的二分法处理多类数据集,进行网络入侵识别的智能决策。Abdelrahman和Abraham提出了一种基于bagging和Adaboost的集成方法。他们实现了纠错输出码(ECOC)的元学习技术,其中,对每个攻击类,生成长度为k的二进制字符串,因此每个比特都是分类器输出,并返回与输出字符串最接近的类并用于分类。为了直接应对处理网络数据中有限数量的恶意样本,Xu等设计了一种使用深度神经网络和特征提取网络的少样本元学习方法。少样本检测首先从两个数据流中提取的特征集和表示两个输入数据流差异程度的delta分数之间进行比较。在元训练阶段,比较查询和样本集的样本并计算平均delta得分。在元测试期间,将测试集和支持集的样本进行比较,样本的预测标签是支持集中具有最小平均delta分数的样本。
Transfer Learning:就像缺乏标记数据一样,通过迁移学习从其他数据源迁移知识可以解决数据缺乏的问题,特别是攻击类型的问题。由于为数据生成标签可能很耗时,Zhao等人采用了一种基于异构特征的迁移学习方法来检测网络异常,并将其与其他基于特征的方法(如HeMap和Correlation Alignment (CORAL))进行了比较。与基于特征的方法不同,拟态学习已被应用为一种迁移学习手段,通过对公开数据上的私有数据进行预训练的父模型进行再训练,以保护私有收集的数据并提高最终模型的准确性。Shafee等人将私有训练模型(在教师模型实验中表现最好的随机森林)中的知识转移到公共训练环境中,产生了可共享的学生模型。与健壮的车辆相比,控制器区域网络(Controller Area Networks)更容易被利用,而且缺乏关于CANs的入侵数据。因此,Tariq等人最近使用两个CAN总线收集了CAN流量数据,并应用迁移学习在新的入侵数据上训练卷积长短期记忆网络。