关于以下两个问题我很困惑:我有一个15维数据集,应该用于聚类数据集中包含多少类型的攻击.
1.现在我已经将我的数据集聚集成5个集群(5个攻击).有谁知道我怎么能指出哪个集群是哪个攻击?(如何标记集群不仅仅是"集群1,集群2 ...")
2.在监督分类中,我们有训练数据集和测试数据集,并且使用从训练数据集构建的分类器进行测试.我的问题是,可以使用相同的方法进行聚类.就像使用聚类算法构建模型一样,然后自动将新实例分类到特定的集群中?这可以实现吗?
如何通过无监督方法识别命名攻击?
人为的名称不在数据中!
对于某些聚类算法,您可以自动分配新实例,但通常您不能(不知道聚类使用的模型).在最坏的情况下,新观察甚至可以将两个聚类合并为一个.那你打算做什么?
如果要分类,请使用分类,而不是群集.
聚类具有非常不同的思维模式.如果从分类的角度来看它,你就不会真正理解它.您使用聚类来查找数据中未知的内容,使用分类来概括新数据已知的内容.
如有必要,您还可以在群集上训练分类器.但是不要盲目地这样做.首先确保群集实际上是有用的.这是很多容易拿出一个比一个良好的集群完全无意义的聚类结果.在无价值的集群上训练分类器不会产生有意义的输出.