在数据分析方面,聚类和分类是两种技术。
分类:分类实际上是从特定的数据中挖掘规律并做出判断的过程。 意味着我们已经知道事物的类别,需要从样本中学习分类规则,是一种引导学习。 例如,Gmail 邮箱中有一个垃圾邮件分类器。 一开始,它可能不会过滤任何东西。 在日常使用过程中,我手动为每封邮件点击“垃圾邮件”或“非垃圾邮件”。 过一段时间,Gmail就会体现出一定的智能,可以自动过滤掉一些垃圾邮件。 这是因为在点击的过程中,实际上给每封邮件都贴上了“标签”。 这个标签只有两个值,要么是“垃圾”要么是“不是垃圾”,Gmail会不断研究邮件哪些特征是垃圾邮件,哪些特征不是垃圾邮件,形成一些辨别模式,这样当一封邮件到达时 ,可以自动分为“垃圾邮件”和“非垃圾邮件”,这是我们手动设置的两个分类。 中的一个。
聚类:聚类的目的是对数据进行分类,但是我们不知道如何预先对数据进行分类。 判断数据块之间的相似度完全是算法本身。 只是把它放在一起。 在聚类结论出来之前,我们根本不知道每个类别的特征。 我们必须通过人类经验来分析聚类结果,看看聚类的类别具有什么特征。
聚类分析:是将研究对象划分为相对同质的群体(簇)的一组统计分析技术。 聚类分析也称为分类分析,或数值分类。 聚类的输入是一组未标记的样本,聚类根据数据本身的距离或相似性将其分成若干组。 划分的原则是最小化组内距离,最大化组间(外)距离。
聚类和分类的区别:分类的目标是预先知道的,但聚类是不同的。 聚类事先并不知道目标变量是什么,类别也不像分类那样预先定义好。 即分类是有监督学习,聚类是无监督学习。
本文介绍了机器学习中一个经典实用的聚类算法—k-means