数据挖掘基础（二）：聚类任务

本文最后更新于 8 个月前，文中所描述的信息可能已发生改变。

加载中... 浏览

聚类和分类很像，但关键区别是：聚类没有提前给好的标签。它要做的是从数据自身发现分组结构。

1. 什么是聚类

聚类是把相似的样本放到同一组。

比如：

这些场景里，我们一开始并不知道具体类别，而是希望算法帮我们发现结构。

分类像考试有标准答案；聚类像把一堆东西按相似程度整理归类。

聚类的核心是“相似”。

但相似怎么定义，取决于特征。

比如用户画像中，可以用：

不同特征会影响聚类结果。

所以聚类前的数据标准化、特征选择非常重要。

常见聚类算法包括：

K-Means 比较常见，它需要预先指定簇数量 K。

DBSCAN 则能发现任意形状的簇，也能识别噪声点。

初学阶段先理解：算法不同，适合的数据形态也不同。

聚类适合回答：

数据里是否天然存在一些相似群体？

它常用于用户分群、内容聚合、异常发现等场景。

聚类结果不是绝对答案，而是一种分析视角。最后还需要结合业务解释每个簇到底代表什么。

加载评论中...