本文最后更新于 7 个月前,文中所描述的信息可能已发生改变。加载中... 浏览
聚类和分类很像,但关键区别是:聚类没有提前给好的标签。 它要做的是从数据自身发现分组结构。
1. 什么是聚类
聚类是把相似的样本放到同一组。
比如:
- 根据消费行为划分用户群体。
- 根据浏览习惯识别不同兴趣人群。
- 根据地区指标划分城市类型。
- 根据文本内容聚合相似文章。
这些场景里,我们一开始并不知道具体类别,而是希望算法帮我们发现结构。
2. 聚类和分类的区别
| 角度 | 分类 | 聚类 |
|---|---|---|
| 是否有标签 | 有 | 没有 |
| 任务目标 | 预测已知类别 | 发现潜在分组 |
| 学习类型 | 监督学习 | 无监督学习 |
分类像考试有标准答案;聚类像把一堆东西按相似程度整理归类。
3. 相似度很重要
聚类的核心是“相似”。
但相似怎么定义,取决于特征。
比如用户画像中,可以用:
- 年龄。
- 消费金额。
- 访问频率。
- 活跃天数。
- 偏好品类。
不同特征会影响聚类结果。
所以聚类前的数据标准化、特征选择非常重要。
4. 常见算法
常见聚类算法包括:
- K-Means。
- 层次聚类。
- DBSCAN。
K-Means 比较常见,它需要预先指定簇数量 K。
DBSCAN 则能发现任意形状的簇,也能识别噪声点。
初学阶段先理解:算法不同,适合的数据形态也不同。
5. 小结
聚类适合回答:
数据里是否天然存在一些相似群体?
它常用于用户分群、内容聚合、异常发现等场景。
聚类结果不是绝对答案,而是一种分析视角。最后还需要结合业务解释每个簇到底代表什么。
留言板